להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא
-
עדיף לחפש תלמוד בבלי חדש לאוצריא
אני ניסיתי קצת, וללא הצלחה בינתיים
צריך לפנות למהדורות ספרים
(עוז והדר פניתי)
המאור
בארות
טלמן
שס ארץ ישראל (בלום)
שס יביע אומר
ועוד...@יהודי-צעיר
כמדומני שכבר שנים מאורות הדף היומי משתמשים בש"ס וילנא של מסורת הש"ס רק ללא ההערות שמסורת הש"ס עבדו אליהם
פנית לאחד משניהם ? -
במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה. -
במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב? -
@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב? -
@דורש-טוב
לא, קודם הדפסתי את זה כתמונה, ואח"כ עשיתי OCR.
אבל כרגע הרשת שלי לא עומדת בזה, אני מקוה בערב להעלות את זה.@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15
-
@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15
-
@הבל-הבלים וכמה שוקל מה שיש היום באוצריא?
-
ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.לאף אחד אין פתרון לבעיה הזו?
זה ישמור על טקסט מדויק 100% -
כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.לאף אחד אין פתרון לבעיה הזו?
זה ישמור על טקסט מדויק 100%@צדיק-וטוב-לו אולי כבוד הרב ג'ימני?
-
אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.
יש כמה דרכים מקובלות:
✅ דרך פשוטה (pdftotext + iconv)
ברוב המקרים זה מספיק:
- חלץ טקסט מה-PDF:
pdftotext input.pdf output.txt- המר מ-Windows-1255 ל-UTF-8:
iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txtאם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:
pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt
✅ דרך מדויקת יותר (Python)
טוב כשצריך שליטה מלאה:
from pdfminer.high_level import extract_text text = extract_text("input.pdf") # אם זה כבר מחרוזת לא תקינה, לפעמים צריך: text_bytes = text.encode('windows-1255', errors='ignore') fixed = text_bytes.decode('windows-1255') with open("output_utf8.txt", "w", encoding="utf-8") as f: f.write(fixed)
✅ אם הקידוד משובש בתוך ה-PDF עצמו
לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:
- נסה
pdftotext -raw - או
pdftotext -enc UTF-8 - או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.
💡 טיפ חשוב
בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:
file output.txtאו:
uchardet output.txtלפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.
אם תרצה, אפשר לתת פתרון מדויק יותר לפי:
- מערכת הפעלה
- כלי העבודה שלך (CLI / Python / תוכנה גרפית)
- דוגמה לפלט משובש
מה אתה משתמש כרגע? 😊
-
במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם -
אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.
יש כמה דרכים מקובלות:
✅ דרך פשוטה (pdftotext + iconv)
ברוב המקרים זה מספיק:
- חלץ טקסט מה-PDF:
pdftotext input.pdf output.txt- המר מ-Windows-1255 ל-UTF-8:
iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txtאם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:
pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt
✅ דרך מדויקת יותר (Python)
טוב כשצריך שליטה מלאה:
from pdfminer.high_level import extract_text text = extract_text("input.pdf") # אם זה כבר מחרוזת לא תקינה, לפעמים צריך: text_bytes = text.encode('windows-1255', errors='ignore') fixed = text_bytes.decode('windows-1255') with open("output_utf8.txt", "w", encoding="utf-8") as f: f.write(fixed)
✅ אם הקידוד משובש בתוך ה-PDF עצמו
לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:
- נסה
pdftotext -raw - או
pdftotext -enc UTF-8 - או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.
💡 טיפ חשוב
בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:
file output.txtאו:
uchardet output.txtלפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.
אם תרצה, אפשר לתת פתרון מדויק יותר לפי:
- מערכת הפעלה
- כלי העבודה שלך (CLI / Python / תוכנה גרפית)
- דוגמה לפלט משובש
מה אתה משתמש כרגע? 😊
@י.-פל. אין לי פייתון, ולא מתחשק לי להתקין.
אתה יכול לנסות להריץ את זה על חגיגה שהביאו למעלה? -
@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם@יאיר-דניאל
כמובן שאני יודע להעלות לגיטהאב.
לא הייתי מספיק ברור, בגלל הגודל, אני לא יודע, וגם אין לי כוח לבדוק.
למעשה, עשיתי גם אופטימיזציה לקבצים, והם שוקלים - 1.6, אבל האיכות תמונה שלהם גרועה מאוד, יותר מהקבצים שיש היום לאוצריא, אבל בזום 100% זה בסדר, אני ינסה להעלות את שתיהם אם אני יצליח. -
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
@צבי-דורש-ציון כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
-
@צבי-דורש-ציון כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי
-
@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי
-
סיכום (אקראי) לדרישות ההתנדבות למאגר:
cor לש"ס וגשל
תיקון כותרות הש"ס הנ"ל- לבנתיים קיימת תוכנה שתעשה זאת. ראה כאן
(לברר על ש"ס אחר 'רישמי' לאוצריא)
התאמת 102 ספרים לאוצריא
המרת קובץ איגרות חזו"א לטקסט -
בעבר היתה יוזמה ליצירת צורת הדף כHTML, שזה בעצם טקסט פשוט שמעוצב בצורת הדף, זה קל (משהו כמו אלפית מPDF), ומהיר, אבל נראה לי דהם לא התקדמו בזה.
@האדם-החושב -
בעבר היתה יוזמה ליצירת צורת הדף כHTML, שזה בעצם טקסט פשוט שמעוצב בצורת הדף, זה קל (משהו כמו אלפית מPDF), ומהיר, אבל נראה לי דהם לא התקדמו בזה.
@האדם-החושב