@u88 אאל"ט אתה יכול להכניס אותם בספרים אישיים דרך ההגדרות

דורש טוב
-
באג | בעיות בגרסת הDB - כאן! -
בעיה | דוח שגיאות בספרים@א.ד לכאן otzaria200@gmail.com
-
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@צדיק-וטוב-לו כתב בבירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?:
לא צילומי אותיות.
בטח שכן
זה ממיר את התמונה לטקסט שאוצריא יודעת לקרוא וזה מוצג כתמונה

-
הצעת ייעול | רעיון חדש לסנכרון אופלייןיש את התוכנה של @יום-חדש-מתחיל
אבל זה צריך התאמה אישית לכל מחשב, קודם היא בודקת מה חסר לו ואח"כ להתחבר עם מחשב אחר וכו'
אולי יש אפשרות לתוכנה שפשוט תסנכרן את תיקיית אוצריא המעודכנת שבאונקי שלי עם כל מחשב שאני אכניס אותו, כולל מחיקת ספרים שנמחקו או השתנו, וזהו. פשוט וקל!
שייך לעשות דבר כזה? -
באג | בעיות בגרסת הDB - כאן!@י.-פל. בלחיצה על כפתור הסנכרון החלון שלו נסגר וא"א לדעת מה קורה אתו
-
בעיה | חידושי הלכות מהרש"אבחלק מהמסכתות כתוב חידושי ובחלק חדושי
כך שקשה למצוא את המסכת המבוקשת -
באג | בעיות בגרסת הDB - כאן!@יאיר-דניאל כתב בבאג | בעיות בגרסת הDB - כאן!:
האם מישהו הצליח לעשות סנכון בגירסאות החדשות - DB?
לחיצה על סנכרון סוגרת את החלונית הזו ו... כלום.

-
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@יאיר-דניאל הוכנסו
אלא"כ התכוונת לזה -
בקשה | דרוש מתנדב שמוכן להיות אחראי על כל הנושא של התיקונים שנשלחים בספרים ע"י הלומדים@יום-חדש-מתחיל הוא קצת צודק
החלק הכי מעצבן בדיווח זה למצוא איפה זה היה בדיוק, כי זה לא אותה תצוגה כמו בספר עצמו
אם זה היה מתוך העמוד של העיון זה מרגיש יותר קל -
באג | בעיות בגרסת הDB - כאן!@יוסי-מחשבים כתב בבאג | בעיות בגרסת הDB - כאן!:
@דורש-טוב כתב בבאג | בעיות בגרסת הDB - כאן!:
אבל זה כן מסתנכרן
אצלי ב"אודות" מופיע עדיין מספר הגירסה הישן.
גם אצלי, אבל ביומן השינויים מופיע החדש, וגם ב everything ראיתי שזה מסתנכרן
-
הסבר | איך אף אחד לא שם לב שבתרגום אונקלוס בפרשת שמות מוזכרת 'אוצריא'???@יאיר-דניאל זה תלוי בדפוסים, בכל מקרה זה לא ממש אותו ניקוד
-
להורדה | מאגר ספרים משלים עבור אוצריא! מתעדכן@הבל-הבלים אין לי את זה כרגע, הוא רצה להעביר לי
אם מישהו מעוניין אני יכול לבקש. -
להורדה | מאגר ספרים משלים עבור אוצריא! מתעדכן@יאיר-דניאל אני אבקש בלנ"ד
-
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@הבל-הבלים אני עשיתי כך:
החלפתי את הכותרות של עמוד א' וב' לנקודה ונקודותיים כמו הכותרות של הטקסט, או יותר נכון החלפתי את הדפים שבקובץ המקורי באוצריא והשארתי את הכותרות של אוצריא
ואיפסתי את האינדקס
והמעבר בין הטקסט לPDF עובר טוב לפי הדפים
אבל:
באיתור יש בעיה שהוא מוצא אמנם גם את הPDF אבל כשלוחצים עליו הוא פותח בכלל את הטקסט, ולא במקום אלא בעמוד הראשון.
מי שרוצה להחליף את הכותרות אפשר די בקלות בPDF- XChange
יש אפשרות להחליף את הדפים ולהשאיר את הכותרות אז פשוט החלפתי את כל הדפים מהקובץ שבאוצריאעריכה: עובד גם בלי לאפס את האינדקס
-
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא@יאיר-דניאל סדרתי בינתיים רק את ברכות וחגיגה בשביל לבדוק, אולי בהמשך אטפל בזה, בינתיים קח את זה אם אתה רוצה לבדוק
bc313c23-263d-4566-9122-a8034c856a01-חגיגה.zip
אבל הבעיה של האיתור ממש מפריעה, אולי עדיף לבדוק את זה קודם בשביל לא לעבוד לחינם
השאלה היא אם זה רק בש"ס הזה, ברגיל זה תקין בגרסא האחרונה?
אגב גם אין לו OCR
כך שכל העדיפות שלו צ"ע טובא -
להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריאכתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
@מישהו שמבין בזה?
ג'מיני
ניתוח מדויק מאוד. העובדה שאתה יכול למחוק את הטקסט או שהדף עצמו מוגדר כטקסט, מעידה על כך שמדובר בקובץ וקטורי (נוצר ישירות מתוכנה כמו Word או אינדיזיין) ולא בסריקה.
הסיבה שאתה מקבל "ג'יבריש" או סימנים משובשים כשאתה מעתיק, נובעת מבעיית קידוד (Encoding). התוכנה יודעת איפה להניח כל אות מבחינה גרפית, אבל היא לא "מבינה" איזו אות זו באמת במפת התווים.
כדי לפתור את זה ולהפוך את הטקסט המשובש ל-OCR איכותי ותקין בעברית, עקוב אחר השלבים הבאים:
שלב א': "השטחת" הקובץ לתמונה (כדי להיפטר מהקידוד הפגום)
כדי שה-OCR יוכל לזהות את האותיות לפי הצורה שלהן (ולא לפי הקוד הפגום שלהן), עלינו להפוך את הדף לתמונה נקייה:
- עבור ללשונית "קובץ" -> "הדפסה".
- בבחירת המדפסת, בחר ב-PDF-XChange Printer או Microsoft Print to PDF.
- לחץ על כפתור "מתקדם" (או הגדרות הדפסה) וחפש את האפשרות "הדפס כתמונה" (Print as Image).
- הערה: הגדר רזולוציה של 300 או 600 DPI כדי לשמור על האיכות הגבוהה שחשובה לך.
- אשר והדפס. כעת קיבלת קובץ PDF חדש שבו הכל הוא תמונה אחת איכותית, ללא קידוד משובש.
שלב ב': ביצוע OCR בעברית על הקובץ ה"נקי"
עכשיו כשהטקסט הוא רק "צורה" של אותיות, התוכנה תוכל לזהות אותו בקלות:
- עבור ללשונית "המרה" (Convert).
- לחץ על "זיהוי טקסט (OCR)".
- בחלון שנפתח, וודא שהגדרת:
- שפות: עברית (אם אין לך, לחץ על "הוסף שפה").
- סוג פלט: "טקסט ניתן לחיפוש מעל תמונה" (Searchable Text over Image).
- לחץ על אישור.
למה זה הפתרון הכי טוב עבורך?
- דיוק: מכיוון שקובץ המקור שלך באיכות גבוהה, ה-OCR יזהה כמעט 100% מהטקסט ללא שגיאות.
- תיקון הג'יבריש: ברגע שהפכת את הטקסט לתמונה, "מחקת" את המידע השגוי שהיה מוצמד לאותיות. ה-OCR יוצר מפת תווים חדשה ותקינה לחלוטין.
- שמירה על המראה: הקובץ ייראה בדיוק אותו דבר, אבל עכשיו תוכל להעתיק ממנו טקסט בעברית תקינה.
פתרון מהיר (ללא הדפסה):
אם אתה לא רוצה להדפיס, תוכל לנסות בלשונית "המרה" -> "זיהוי טקסט", ובאפשרויות לבחור ב-"Ignore existing text" (התעלם מטקסט קיים). זה יכריח את התוכנה לבצע OCR על סמך צורת האותיות למרות שהיא כבר "רואה" שם טקסט (את הג'יבריש).
ובלי OCR ?
כלומר להפוך את הטקסט עצמו למשהו שניתן להעתקה?מבחינה טכנית, אם הטקסט שאתה מעתיק יוצא כ"ג'יבריש", זה אומר שהמפה שמקשרת בין הצורה הגרפית של האות לבין הערך הדיגיטלי שלה (מה שנקרא Encoding או Character Map) שבורה.
במצב כזה, המחשב רואה "צורה" של האות א', אבל ב"תעודת הזהות" של האות הזו רשום שהיא בכלל הסימן @. כשאתה מעתיק, הוא מעתיק את "תעודת הזהות" ולא את המראה.
האם אפשר לתקן את זה בלי OCR? התשובה היא: בדרך כלל לא, אבל יש ניסיון אחד ששווה לעשות לפני שנכנעים ל-OCR:
הניסיון היחיד ללא OCR: החלפת גופן (Font Replacement)
לפעמים הבעיה היא רק בגופן המוטמע (Embedded). אם נכריח את התוכנה להשתמש בגופן תקני שמותקן אצלך במחשב, אולי המיפוי יסתדר.
- עבור ללשונית עריכה (Edit) ובחר בכלי ערוך תוכן (Edit Content).
- סמן את הטקסט המשובש (או
Ctrl + A). - לחץ עליו קליק ימני ובחר מאפיינים (Properties).
- בחלון המאפיינים שייפתח בצד, חפש את סעיף Text Styles (סגנונות טקסט) ושם את Font (גופן).
- נסה לשנות את הגופן לגופן עברי סטנדרטי כמו Arial או David.
התוצאה האפשרית:
- אם זה הצליח: הטקסט יהפוך לקריא וניתן להעתקה.
- אם זה נכשל: הטקסט יהפוך לריבועים (Empty boxes) או שיישאר ג'יבריש. זה סימן שהמידע על האותיות פשוט לא קיים בקובץ.
למה OCR הוא בעצם "מכונת תיקון" במקרה שלך?
חשוב להבין: OCR הוא לא רק לסריקות גרועות. ב-PDF-XChange, ה-OCR יודע "להסתכל" על הציור של האותיות (שנראה מעולה כי זה קובץ מקור) ולתת להן "תעודת זהות" חדשה ותקינה בעברית.
אם תשתמש באופציה "Ignore Existing Text" (התעלם מטקסט קיים) בזמן ביצוע ה-OCR:
- התוכנה תמחק את ה"ג'יבריש" הנסתר.
- היא תנתח את צורת האותיות האיכותית שיש לך.
- היא תדביק מעליהן שכבת טקסט חדשה, הפעם עם קידוד עברי תקני.
התוצאה: הקובץ יישאר באיכות המקורית הגבוהה שלו, אבל הטקסט יהיה סוף סוף "חי" ואמיתי.
לסיכום:
אם החלפת הגופן (בשיטת המאפיינים) לא עזרה, אין דרך אחרת מלבד OCR. היתרון הוא שעל קובץ וקטורי איכותי, ה-OCR רץ בשניות והדיוק שלו הוא כמעט 100%.
אולי למישהו יש משהו לעשות עם המידע הזה
-
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@איש-גמזו כתב בבירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?:
@אהרן לפי הידוע לי יש פרויקט מיוחד להתאמת ספרי דיקטה לאוצריא @יום-חדש-מתחיל
-
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@צדיק-וטוב-לו כתב בבירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?:
צריך לראות מה לעשות עם הצילומים הצורות בעמוד ה.
בתוכנה של הספרי דיקטה יש לזה כלי להמרה לטקסט
-
בירור | יש ספרים חשובים שהייתם רוצים שייכנסו לאוצריא?@נתנאל_26 חלק ב' בהיברובוקס נדפס בתל אביב תשכ"ג
במקור הוא מתרצ"ה, נדפס בוורשא, דפוס הוטנר
באוצר החכמה זה נראה ההוצאה הישנה
או שהם רק מחקו את המסגרת
https://tablet.otzar.org/#/book/11624/p/132/t/1/fs/0/start/0/end/0/c
יש סיכוי שכאן יש את זה אבל חסום לי
https://nli.alma.exlibrisgroup.com/view/action/uresolver.do?operation=resolveService&package_service_id=74187044260005171&institutionId=5171&customerId=5170