OCR

‏OCR‏ (Optical Character Recognition) הופך את התמונה של הטקסט לתווים אמיתיים שאפשר לבחור. עמוד סרוק או צילום של מסמך הם, מבחינת המחשב, סתם רשת של פיקסלים: אין בהם טקסט, רק תמונה שבמקרה נראית כמו מילים. OCR מנתח את הצורות של האותיות ומשחזר את מחרוזת התווים שמתחת.

התוצאה נכתבת בדרך כלל בחזרה כשכבת טקסט בלתי נראית שיושבת בדיוק על גבי התמונה המקורית, כך שהעמוד עדיין נראה כמו הסריקה אבל עכשיו ניתן לחיפוש, להעתקה ולאינדוקס. מנועים מודרניים מטפלים בשפות מרובות, בעמודות ובטבלאות, והדיוק תלוי מאוד ברזולוציית המקור: סריקה נקייה של 300 DPI מזוהה הרבה יותר טוב מצילום מטושטש בטלפון. Tesseract, המנוע בקוד פתוח, הוא זה שרוב הכלים מבוססי הדפדפן נבנים עליו.

מכיוון ש‑OCR רץ לעיתים קרובות על ניירת רגישה, חשבוניות, חוזים, מסמכי זיהוי, היכן שזה קורה הוא שאלת פרטיות אמיתית. reader.me מריץ זיהוי עם WebAssembly בתוך הדפדפן שלך, כך שתמונת העמוד והטקסט שהוא מפיק נשארים על המכשיר שלך ולעולם לא נשלחים לשום מקום כדי שֶׁשרת יקרא אותם.

כלים קשורים

מונחים נוספים

AcroForm XFA Metadata Compression Embedded fonts Text layer

← חזרה למילון