בירור | OCR לקבצי PDF לחיפוש בתוכנה
-
לעשות OCR לספר, אין פשוט מזה, אסביר לך בשפה שווה לכל נפש:
בשביל תוצאה מקצועית אתה חייב לגשת ישר לסטרים של הקובץ ברמת הביט, צריך לחלץ את המידע הבינארי הגולמי ולבצע עליו ביטול כימות ידני כדי להימנע מארטיפקטים של דחיסה. אחרי שיש לך את המטריצה הגולמית, תפעיל מסנן מורפולוגי של פתיחה וסגירה כדי לנקות רעשי רקע סטוכסטיים, ומיד אחר כך תחשב את הגרדיאנטים עם אופרטור סובל כדי לבצע זיהוי קצוות וקטורי. רק אז תבצע בינאריזציה אדפטיבית מבוססת מקומותש תתחשב בשונות של הפיקסלים, אחרת הכל יצא לך מרוח בגלל חוסר תאימותפ אזה מרחבית.
בשלב השני, אתה בונה ארכיטקטורה של רשת עצבית רקורסיבית משולבת עם שכבות קונבולוציה, ומאמן אותה בשיטת על ערכת נתונים ייעודית שתייצר מהגופן של הספר עם אוגמנטציה של עיוותים גיאומטריים. את פלט ההסתברויות של הרשת תזרים לתוך אלגוריתם ויטרבי כדי למצוא את הרצף הסמנטי בעל הסבירות המקסימלית במרחב הוקטורי, ורק בסוף תבצע סריאליזציה חזרה לפורמט יוניקוד, בתנאי כמובן שהקצת נכון את הזיכרון במעבד הגרפי בזמן האינפרנס כדי לא לקבל גלישת מחסנית באמצע הריצה.אבל היום יש גם תוכנות שעושות את כל זה לבד, אתה יכול להעזר בהן, יש ברחבי האינטרנט רבים כאלו חינמיים, כולל בעברית.
נ.ב. מכיר את הסיפור על וכו' שאמר שאם הוא שואל אם מותר לשתות חלב לארבע כוסות צריך לבדוק אם יש לו יין ובשר ומשמנים? ובכן גם כאן הרב אמר שאם יש לך ספר של 7000 עמודים, זה ודאי לא ספר סרוק, כי נפח כזה של ספר סרוק זה לא יפתח לך עעל מחשב נורמלי, ולכן בהכרח מדובר על קובץ וורד וכדומה שהפך לPDF, ללמדינו שמן הסתם כבר יש בו שכבת OCR.
ויהי לפלא. -
@י.-פל. כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
@11

מיהו הAI המוכשר כל-כך?אתה מזלזל בכישורים שלי?
@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
@י.-פל. כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
@11

מיהו הAI המוכשר כל-כך?אתה מזלזל בכישורים שלי?
לא חושב שישבת לכתוב פוסט ארוך ומלא במילים נמלצות, ק' בשביל לענות תשובה ל'איך עושים OCR'... במיוחד שהשלב השני נע בין שטויות גולמיות לטיעונים רלוונטיים רק מ2023, שאינם שייכים באופן ישיר לתחום הOCR.
-
לעשות OCR לספר, אין פשוט מזה, אסביר לך בשפה שווה לכל נפש:
בשביל תוצאה מקצועית אתה חייב לגשת ישר לסטרים של הקובץ ברמת הביט, צריך לחלץ את המידע הבינארי הגולמי ולבצע עליו ביטול כימות ידני כדי להימנע מארטיפקטים של דחיסה. אחרי שיש לך את המטריצה הגולמית, תפעיל מסנן מורפולוגי של פתיחה וסגירה כדי לנקות רעשי רקע סטוכסטיים, ומיד אחר כך תחשב את הגרדיאנטים עם אופרטור סובל כדי לבצע זיהוי קצוות וקטורי. רק אז תבצע בינאריזציה אדפטיבית מבוססת מקומותש תתחשב בשונות של הפיקסלים, אחרת הכל יצא לך מרוח בגלל חוסר תאימותפ אזה מרחבית.
בשלב השני, אתה בונה ארכיטקטורה של רשת עצבית רקורסיבית משולבת עם שכבות קונבולוציה, ומאמן אותה בשיטת על ערכת נתונים ייעודית שתייצר מהגופן של הספר עם אוגמנטציה של עיוותים גיאומטריים. את פלט ההסתברויות של הרשת תזרים לתוך אלגוריתם ויטרבי כדי למצוא את הרצף הסמנטי בעל הסבירות המקסימלית במרחב הוקטורי, ורק בסוף תבצע סריאליזציה חזרה לפורמט יוניקוד, בתנאי כמובן שהקצת נכון את הזיכרון במעבד הגרפי בזמן האינפרנס כדי לא לקבל גלישת מחסנית באמצע הריצה.אבל היום יש גם תוכנות שעושות את כל זה לבד, אתה יכול להעזר בהן, יש ברחבי האינטרנט רבים כאלו חינמיים, כולל בעברית.
נ.ב. מכיר את הסיפור על וכו' שאמר שאם הוא שואל אם מותר לשתות חלב לארבע כוסות צריך לבדוק אם יש לו יין ובשר ומשמנים? ובכן גם כאן הרב אמר שאם יש לך ספר של 7000 עמודים, זה ודאי לא ספר סרוק, כי נפח כזה של ספר סרוק זה לא יפתח לך עעל מחשב נורמלי, ולכן בהכרח מדובר על קובץ וורד וכדומה שהפך לPDF, ללמדינו שמן הסתם כבר יש בו שכבת OCR.
ויהי לפלא.@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
אסביר לך בשפה שווה לכל נפש:
@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
בשביל תוצאה מקצועית אתה חייב לגשת ישר לסטרים של הקובץ ברמת הביט, צריך לחלץ את המידע הבינארי הגולמי ולבצע עליו ביטול כימות ידני כדי להימנע מארטיפקטים של דחיסה. אחרי שיש לך את המטריצה הגולמית, תפעיל מסנן מורפולוגי של פתיחה וסגירה כדי לנקות רעשי רקע סטוכסטיים, ומיד אחר כך תחשב את הגרדיאנטים עם אופרטור סובל כדי לבצע זיהוי קצוות וקטורי. רק אז תבצע בינאריזציה אדפטיבית מבוססת מקומותש תתחשב בשונות של הפיקסלים, אחרת הכל יצא לך מרוח בגלל חוסר תאימותפ אזה מרחבית.
בשלב השני, אתה בונה ארכיטקטורה של רשת עצבית רקורסיבית משולבת עם שכבות קונבולוציה, ומאמן אותה בשיטת על ערכת נתונים ייעודית שתייצר מהגופן של הספר עם אוגמנטציה של עיוותים גיאומטריים. את פלט ההסתברויות של הרשת תזרים לתוך אלגוריתם ויטרבH כדי למצוא את הרצף הסמנטי בעל הסבירות המקסימלית במרחב הוקטורי, ורק בסוף תבצע סריאליזציה חזרה לפורמט יוניקוד, בתנאי כמובן שהקצת נכון את הזיכרון במעבד הגרפי בזמן האינפרנס כדי לא לקבל גלישת מחסנית באמצע הריצה.וואי וואי וואי..
לזה אתה קורה שווה לכל נפש???
או שאתה איזה גאון שיגעון - שחושב שאין בחור ישיבה קלאסי/אברך כולל שלא מכיר מה זה בינארציה אדפטיבית או לחילופין מה זה אופרטור סובל, או שזה מועתק מבינה מלאכותית = שאוחזת ממך עולמות, ובטוחה שאתה מבין כל מה שהיא כתבה.
בכ"א מסקנה במילה אחת - זה הטקסט הכי רחוק שראיתי במהלך ימי חיי (ואני כבר נמצא פה כמה שנים על הכדור...) מהביטוי "שווה לכל נפש"... -
@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
אסביר לך בשפה שווה לכל נפש:
@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
בשביל תוצאה מקצועית אתה חייב לגשת ישר לסטרים של הקובץ ברמת הביט, צריך לחלץ את המידע הבינארי הגולמי ולבצע עליו ביטול כימות ידני כדי להימנע מארטיפקטים של דחיסה. אחרי שיש לך את המטריצה הגולמית, תפעיל מסנן מורפולוגי של פתיחה וסגירה כדי לנקות רעשי רקע סטוכסטיים, ומיד אחר כך תחשב את הגרדיאנטים עם אופרטור סובל כדי לבצע זיהוי קצוות וקטורי. רק אז תבצע בינאריזציה אדפטיבית מבוססת מקומותש תתחשב בשונות של הפיקסלים, אחרת הכל יצא לך מרוח בגלל חוסר תאימותפ אזה מרחבית.
בשלב השני, אתה בונה ארכיטקטורה של רשת עצבית רקורסיבית משולבת עם שכבות קונבולוציה, ומאמן אותה בשיטת על ערכת נתונים ייעודית שתייצר מהגופן של הספר עם אוגמנטציה של עיוותים גיאומטריים. את פלט ההסתברויות של הרשת תזרים לתוך אלגוריתם ויטרבH כדי למצוא את הרצף הסמנטי בעל הסבירות המקסימלית במרחב הוקטורי, ורק בסוף תבצע סריאליזציה חזרה לפורמט יוניקוד, בתנאי כמובן שהקצת נכון את הזיכרון במעבד הגרפי בזמן האינפרנס כדי לא לקבל גלישת מחסנית באמצע הריצה.וואי וואי וואי..
לזה אתה קורה שווה לכל נפש???
או שאתה איזה גאון שיגעון - שחושב שאין בחור ישיבה קלאסי/אברך כולל שלא מכיר מה זה בינארציה אדפטיבית או לחילופין מה זה אופרטור סובל, או שזה מועתק מבינה מלאכותית = שאוחזת ממך עולמות, ובטוחה שאתה מבין כל מה שהיא כתבה.
בכ"א מסקנה במילה אחת - זה הטקסט הכי רחוק שראיתי במהלך ימי חיי (ואני כבר נמצא פה כמה שנים על הכדור...) מהביטוי "שווה לכל נפש"...@יאיר-דניאל כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
"שווה לכל נפש"
https://www.hamichlol.org.il/לשון_סגי_נהור
תן כבוד למי שרוצה להעלות חיוך על קוראי הפורום...
-
זה סתם שפה גבוהה. זה מושגים פשוטים.
בינארציה אדפטיבית זה לזהות את השחור ולבן בצורה ברורה יותר לפי אזור הטקסט. זה סתם שפה מודרנית לזיל בתר רובא (בגדרי רוב וקרוב, שיזהה כל נקודה לפי רוב האזור שהיא נמצאת בו).
אופרטור סובל זה גם סתם שפה גבוהה שבאה לבטא איפה נמצא הגבול של הטקסט בזוויות, זה בדיוק כמו דין עיר העשויה כקשת לענין תחום שבת (עירובין שם, שם), אז אותו דבר בדיוק בדף של PDF.
העקרון מאוד פשוט, זה ענין של מילון. -
זה סתם שפה גבוהה. זה מושגים פשוטים.
בינארציה אדפטיבית זה לזהות את השחור ולבן בצורה ברורה יותר לפי אזור הטקסט. זה סתם שפה מודרנית לזיל בתר רובא (בגדרי רוב וקרוב, שיזהה כל נקודה לפי רוב האזור שהיא נמצאת בו).
אופרטור סובל זה גם סתם שפה גבוהה שבאה לבטא איפה נמצא הגבול של הטקסט בזוויות, זה בדיוק כמו דין עיר העשויה כקשת לענין תחום שבת (עירובין שם, שם), אז אותו דבר בדיוק בדף של PDF.
העקרון מאוד פשוט, זה ענין של מילון. -
זה סתם שפה גבוהה. זה מושגים פשוטים.
בינארציה אדפטיבית זה לזהות את השחור ולבן בצורה ברורה יותר לפי אזור הטקסט. זה סתם שפה מודרנית לזיל בתר רובא (בגדרי רוב וקרוב, שיזהה כל נקודה לפי רוב האזור שהיא נמצאת בו).
אופרטור סובל זה גם סתם שפה גבוהה שבאה לבטא איפה נמצא הגבול של הטקסט בזוויות, זה בדיוק כמו דין עיר העשויה כקשת לענין תחום שבת (עירובין שם, שם), אז אותו דבר בדיוק בדף של PDF.
העקרון מאוד פשוט, זה ענין של מילון. -
@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
(עירובין שם, שם),
???
אז אחרי הכל זה כן בינה מלאכותית, או שאתה משתמש במילון תורני?
@דאנציג כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:
(עירובין שם, שם),
???
אז אחרי הכל זה כן בינה מלאכותית, או שאתה משתמש במילון תורני?
זה על דרך הבדיחותא, היתול, שחוק, הלצה (הלוצ"ע בלע"ז). אם באמת אתה מחפש עיין בדף נ"ז ע"ב.
אבל לגופו של ענין ברור שאני עושה שימוש נרחב בבינה מלאכותית ורוב חכמתי הימנה, אצלינו בכולל לא הספיקו את כל מה שאני יודע, ובפרט לא בענייני מחשבים.
-
לעשות OCR לספר, אין פשוט מזה, אסביר לך בשפה שווה לכל נפש:
בשביל תוצאה מקצועית אתה חייב לגשת ישר לסטרים של הקובץ ברמת הביט, צריך לחלץ את המידע הבינארי הגולמי ולבצע עליו ביטול כימות ידני כדי להימנע מארטיפקטים של דחיסה. אחרי שיש לך את המטריצה הגולמית, תפעיל מסנן מורפולוגי של פתיחה וסגירה כדי לנקות רעשי רקע סטוכסטיים, ומיד אחר כך תחשב את הגרדיאנטים עם אופרטור סובל כדי לבצע זיהוי קצוות וקטורי. רק אז תבצע בינאריזציה אדפטיבית מבוססת מקומותש תתחשב בשונות של הפיקסלים, אחרת הכל יצא לך מרוח בגלל חוסר תאימותפ אזה מרחבית.
בשלב השני, אתה בונה ארכיטקטורה של רשת עצבית רקורסיבית משולבת עם שכבות קונבולוציה, ומאמן אותה בשיטת על ערכת נתונים ייעודית שתייצר מהגופן של הספר עם אוגמנטציה של עיוותים גיאומטריים. את פלט ההסתברויות של הרשת תזרים לתוך אלגוריתם ויטרבי כדי למצוא את הרצף הסמנטי בעל הסבירות המקסימלית במרחב הוקטורי, ורק בסוף תבצע סריאליזציה חזרה לפורמט יוניקוד, בתנאי כמובן שהקצת נכון את הזיכרון במעבד הגרפי בזמן האינפרנס כדי לא לקבל גלישת מחסנית באמצע הריצה.אבל היום יש גם תוכנות שעושות את כל זה לבד, אתה יכול להעזר בהן, יש ברחבי האינטרנט רבים כאלו חינמיים, כולל בעברית.
נ.ב. מכיר את הסיפור על וכו' שאמר שאם הוא שואל אם מותר לשתות חלב לארבע כוסות צריך לבדוק אם יש לו יין ובשר ומשמנים? ובכן גם כאן הרב אמר שאם יש לך ספר של 7000 עמודים, זה ודאי לא ספר סרוק, כי נפח כזה של ספר סרוק זה לא יפתח לך עעל מחשב נורמלי, ולכן בהכרח מדובר על קובץ וורד וכדומה שהפך לPDF, ללמדינו שמן הסתם כבר יש בו שכבת OCR.
ויהי לפלא.