@מישהו-1 משובב נתיבות
אולי יש לך את הבעיה של הספרים שנעלמים
דורש טוב
-
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא? -
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@מישהו-1 כל אחד בוחר מה הוא רוצה לערוך לפי מה שנראה לו או לפי כמה זה קל
יש ספרים שהכותרות שלהם מגוונות וקשה יותר לעשות אותם וכדו'
לא הבנתי למה צריך מחשב חזק התוכנות עושות את השנויים בשניה, וגם אם אתה פותח בוורד וזה תוקע את המחשב, תגדיר שלא יסמן שגיאות ותראה ישועות
משובב נתיבות קיים באוצריא. -
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@יאיר-דניאל שכוייח
כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
באיתור יש בעיה שהוא מוצא אמנם גם את הPDF אבל כשלוחצים עליו הוא פותח בכלל את הטקסט, ולא במקום אלא בעמוד הראשון.
זה בעיה רק אצלי?
-
בירור | סדרת הספרים וזה לשנו@יום-חדש-מתחיל לא הבנתי
אוצריא זה רק לחיפוש?
אפשר ללמוד סוגיא עם הספר הזה
רק צריך להחליט האם מעוניינים בספרי מ"מ -
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@נתנאל_26 חלק ב' בהיברובוקס נדפס בתל אביב תשכ"ג
במקור הוא מתרצ"ה, נדפס בוורשא, דפוס הוטנר
באוצר החכמה זה נראה ההוצאה הישנה
או שהם רק מחקו את המסגרת
https://tablet.otzar.org/#/book/11624/p/132/t/1/fs/0/start/0/end/0/c
יש סיכוי שכאן יש את זה אבל חסום לי
https://nli.alma.exlibrisgroup.com/view/action/uresolver.do?operation=resolveService&package_service_id=74187044260005171&institutionId=5171&customerId=5170 -
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?אפיקי ים חלק ב
https://beta.hebrewbooks.org/reader/reader.aspx?sfid=14672#p=132&fitMode=fitwidth&hlts=&ocr=
אבל כנראה יש על זה זכויות יוצרים -
להורדה | מאגר ספרים משלים עבור אוצריא! מתעדכן@שמואל5 כתב בלהורדה | ספרים עבור אוצריא:
לא סגור בדיוק מי זה...
https://www.nli.org.il/he/search?projectName=NLI#&q=creator,contains,קולדצקי%2C אריה בן יצחק
כותב שם מו"ז הגר"ח קנייבסקי -
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@צדיק-וטוב-לו כתב בבירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?:
לא צילומי אותיות.
בטח שכן
זה ממיר את התמונה לטקסט שאוצריא יודעת לקרוא וזה מוצג כתמונה

-
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@צדיק-וטוב-לו כתב בבירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?:
צריך לראות מה לעשות עם הצילומים הצורות בעמוד ה.
בתוכנה של הספרי דיקטה יש לזה כלי להמרה לטקסט
-
בקשה | תוכנת "המשלים לוורד" יש למישהו?@קטנטן כתב בבקשה | תוכנת "המשלים לוורד" יש למישהו?:
ב. המילה הראשונה המוגדלת בכל קטע היו בתוך מסגרת, מה שקורה שכשמוצאים אותה מהמסגרת היא נהיית בשורה חדשה.
צריך להגדיר בחיפוש והחלפה שכל פעם יש את התוים שסוגרים את ההדגשה ואח"כ סימון פסקה, להחליף לתוים בלבד, או לתווים ורווח בשביל שלא יתחבר למילה הבאה
למשל </b> ואח"כ ^p (המזהה של סימון פסקה)
להחליף ל </b> -
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@איש-גמזו כתב בבירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?:
@אהרן לפי הידוע לי יש פרויקט מיוחד להתאמת ספרי דיקטה לאוצריא @יום-חדש-מתחיל
-
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15
-
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב? -
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@צדיק-וטוב-לו העלתי פה מסכת חגיגה
@צדיק-וטוב-לו כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
מה מקור הש"ס? היברובוקס? מהרשת?
אין לי מושג @יאיר-דניאל
זה כמו של היברובוקס ואוצריא אבל זה נראה קובץ מקור -
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריאכתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
@מישהו שמבין בזה?
ג'מיני
ניתוח מדויק מאוד. העובדה שאתה יכול למחוק את הטקסט או שהדף עצמו מוגדר כטקסט, מעידה על כך שמדובר בקובץ וקטורי (נוצר ישירות מתוכנה כמו Word או אינדיזיין) ולא בסריקה.
הסיבה שאתה מקבל "ג'יבריש" או סימנים משובשים כשאתה מעתיק, נובעת מבעיית קידוד (Encoding). התוכנה יודעת איפה להניח כל אות מבחינה גרפית, אבל היא לא "מבינה" איזו אות זו באמת במפת התווים.
כדי לפתור את זה ולהפוך את הטקסט המשובש ל-OCR איכותי ותקין בעברית, עקוב אחר השלבים הבאים:
שלב א': "השטחת" הקובץ לתמונה (כדי להיפטר מהקידוד הפגום)
כדי שה-OCR יוכל לזהות את האותיות לפי הצורה שלהן (ולא לפי הקוד הפגום שלהן), עלינו להפוך את הדף לתמונה נקייה:
- עבור ללשונית "קובץ" -> "הדפסה".
- בבחירת המדפסת, בחר ב-PDF-XChange Printer או Microsoft Print to PDF.
- לחץ על כפתור "מתקדם" (או הגדרות הדפסה) וחפש את האפשרות "הדפס כתמונה" (Print as Image).
- הערה: הגדר רזולוציה של 300 או 600 DPI כדי לשמור על האיכות הגבוהה שחשובה לך.
- אשר והדפס. כעת קיבלת קובץ PDF חדש שבו הכל הוא תמונה אחת איכותית, ללא קידוד משובש.
שלב ב': ביצוע OCR בעברית על הקובץ ה"נקי"
עכשיו כשהטקסט הוא רק "צורה" של אותיות, התוכנה תוכל לזהות אותו בקלות:
- עבור ללשונית "המרה" (Convert).
- לחץ על "זיהוי טקסט (OCR)".
- בחלון שנפתח, וודא שהגדרת:
- שפות: עברית (אם אין לך, לחץ על "הוסף שפה").
- סוג פלט: "טקסט ניתן לחיפוש מעל תמונה" (Searchable Text over Image).
- לחץ על אישור.
למה זה הפתרון הכי טוב עבורך?
- דיוק: מכיוון שקובץ המקור שלך באיכות גבוהה, ה-OCR יזהה כמעט 100% מהטקסט ללא שגיאות.
- תיקון הג'יבריש: ברגע שהפכת את הטקסט לתמונה, "מחקת" את המידע השגוי שהיה מוצמד לאותיות. ה-OCR יוצר מפת תווים חדשה ותקינה לחלוטין.
- שמירה על המראה: הקובץ ייראה בדיוק אותו דבר, אבל עכשיו תוכל להעתיק ממנו טקסט בעברית תקינה.
פתרון מהיר (ללא הדפסה):
אם אתה לא רוצה להדפיס, תוכל לנסות בלשונית "המרה" -> "זיהוי טקסט", ובאפשרויות לבחור ב-"Ignore existing text" (התעלם מטקסט קיים). זה יכריח את התוכנה לבצע OCR על סמך צורת האותיות למרות שהיא כבר "רואה" שם טקסט (את הג'יבריש).
ובלי OCR ?
כלומר להפוך את הטקסט עצמו למשהו שניתן להעתקה?מבחינה טכנית, אם הטקסט שאתה מעתיק יוצא כ"ג'יבריש", זה אומר שהמפה שמקשרת בין הצורה הגרפית של האות לבין הערך הדיגיטלי שלה (מה שנקרא Encoding או Character Map) שבורה.
במצב כזה, המחשב רואה "צורה" של האות א', אבל ב"תעודת הזהות" של האות הזו רשום שהיא בכלל הסימן @. כשאתה מעתיק, הוא מעתיק את "תעודת הזהות" ולא את המראה.
האם אפשר לתקן את זה בלי OCR? התשובה היא: בדרך כלל לא, אבל יש ניסיון אחד ששווה לעשות לפני שנכנעים ל-OCR:
הניסיון היחיד ללא OCR: החלפת גופן (Font Replacement)
לפעמים הבעיה היא רק בגופן המוטמע (Embedded). אם נכריח את התוכנה להשתמש בגופן תקני שמותקן אצלך במחשב, אולי המיפוי יסתדר.
- עבור ללשונית עריכה (Edit) ובחר בכלי ערוך תוכן (Edit Content).
- סמן את הטקסט המשובש (או
Ctrl + A). - לחץ עליו קליק ימני ובחר מאפיינים (Properties).
- בחלון המאפיינים שייפתח בצד, חפש את סעיף Text Styles (סגנונות טקסט) ושם את Font (גופן).
- נסה לשנות את הגופן לגופן עברי סטנדרטי כמו Arial או David.
התוצאה האפשרית:
- אם זה הצליח: הטקסט יהפוך לקריא וניתן להעתקה.
- אם זה נכשל: הטקסט יהפוך לריבועים (Empty boxes) או שיישאר ג'יבריש. זה סימן שהמידע על האותיות פשוט לא קיים בקובץ.
למה OCR הוא בעצם "מכונת תיקון" במקרה שלך?
חשוב להבין: OCR הוא לא רק לסריקות גרועות. ב-PDF-XChange, ה-OCR יודע "להסתכל" על הציור של האותיות (שנראה מעולה כי זה קובץ מקור) ולתת להן "תעודת זהות" חדשה ותקינה בעברית.
אם תשתמש באופציה "Ignore Existing Text" (התעלם מטקסט קיים) בזמן ביצוע ה-OCR:
- התוכנה תמחק את ה"ג'יבריש" הנסתר.
- היא תנתח את צורת האותיות האיכותית שיש לך.
- היא תדביק מעליהן שכבת טקסט חדשה, הפעם עם קידוד עברי תקני.
התוצאה: הקובץ יישאר באיכות המקורית הגבוהה שלו, אבל הטקסט יהיה סוף סוף "חי" ואמיתי.
לסיכום:
אם החלפת הגופן (בשיטת המאפיינים) לא עזרה, אין דרך אחרת מלבד OCR. היתרון הוא שעל קובץ וקטורי איכותי, ה-OCR רץ בשניות והדיוק שלו הוא כמעט 100%.
אולי למישהו יש משהו לעשות עם המידע הזה
-
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@יאיר-דניאל שמתי לב שזה בכלל לא קובץ תמונה עם שכבת טקסט כמו באוצריא, אלא זה קובץ שמוגדר כטקסט כמו קובץ וורד ששמרו כPDF
רק שמשום מה הוא לא מזוהה כעברית אלא משהו משובש
אם ככה יכול להיות שיש דרך להעתיק את הטקסט בעצמו בלי OCR בכלל ולהפוך אותו לOCR בדיוק מושלם
@מישהו שמבין בזה? -
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@חנניה לא התכוונתי שזה עבודה קשה, אלא שצריך להגדיר את זה נכון כמו שכתב @הבל-הבלים ולדעת באיזה תוכנה להשתמש, אח"כ בלחיצת כפתור אחת וכמה שעות עבודה של המחשב אפשר לעשות את הכל
אבל יותר פשוט למצוא את הדרך להעתיק@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
?
@יהודי-צעיר טוען שם שזה OCR איכותי, אבל לכאו' באמת מהקבצים החדשים אפשר להוציא יותר מזה
-
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא -
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@חנניה כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
איפה נמצא ה OCR? בקובץ עצמו?
כן
ואיך יוצרים OCR, והיכן מאכסנים אותו?
אולי אפשר לעשות את זה גם לו?יש הרבה תוכנות אבל זה עבודה והאיכות לא מובטחת.
כמדומה שאפשר להעתיק את הOCR לבד בתוכנה דלעיל אבל אני לא בטוח -
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@יאיר-דניאל סדרתי בינתיים רק את ברכות וחגיגה בשביל לבדוק, אולי בהמשך אטפל בזה, בינתיים קח את זה אם אתה רוצה לבדוק
bc313c23-263d-4566-9122-a8034c856a01-חגיגה.zip
אבל הבעיה של האיתור ממש מפריעה, אולי עדיף לבדוק את זה קודם בשביל לא לעבוד לחינם
השאלה היא אם זה רק בש"ס הזה, ברגיל זה תקין בגרסא האחרונה?
אגב גם אין לו OCR
כך שכל העדיפות שלו צ"ע טובא