OCR

OCR (Optical Character Recognition) เปลี่ยนภาพของข้อความให้กลายเป็นอักขระจริงที่เลือกได้ หน้าที่สแกนมาหรือภาพถ่ายของเอกสารนั้น สำหรับคอมพิวเตอร์แล้วเป็นเพียงตารางของพิกเซล ไม่มีข้อความอยู่ในนั้นเลย มีแค่ภาพที่บังเอิญดูเหมือนคำพูด OCR วิเคราะห์รูปร่างของตัวอักษรและสร้างสายอักขระเบื้องหลังขึ้นมาใหม่

ผลลัพธ์มักถูกเขียนกลับเป็นชั้นข้อความที่มองไม่เห็นซ้อนอยู่บนภาพต้นฉบับพอดี หน้าจึงยังดูเหมือนสแกนเดิม แต่ตอนนี้ค้นหาได้ คัดลอกได้ และทำดัชนีได้ เอนจินสมัยใหม่รองรับหลายภาษา หลายคอลัมน์ และตาราง โดยความแม่นยำขึ้นอยู่กับความละเอียดของต้นฉบับอย่างมาก สแกนที่คมชัดระดับ 300 DPI ถูกอ่านได้ดีกว่าภาพถ่ายมือถือที่เบลอมาก Tesseract ซึ่งเป็นเอนจินโอเพนซอร์ส คือสิ่งที่เครื่องมือบนเบราว์เซอร์ส่วนใหญ่สร้างขึ้นบนพื้นฐานนั้น

เพราะ OCR มักทำงานกับเอกสารอ่อนไหวอย่างใบแจ้งหนี้ สัญญา และเอกสารแสดงตน ที่ใดที่มันทำงานจึงเป็นคำถามเรื่องความเป็นส่วนตัวอย่างแท้จริง reader.me รันการรู้จำด้วย WebAssembly ภายในเบราว์เซอร์ของคุณ ภาพของหน้าและข้อความที่ได้จึงอยู่บนอุปกรณ์ของคุณ และไม่เคยถูกส่งไปที่ใดให้เซิร์ฟเวอร์อ่าน

เครื่องมือที่เกี่ยวข้อง

คำศัพท์เพิ่มเติม

AcroForm XFA Metadata Compression Embedded fonts Text layer

← กลับไปยังอภิธานศัพท์