OCR

OCR (Optical Character Recognition) menukar gambar teks menjadi aksara sebenar yang boleh dipilih. Sebuah halaman imbasan atau foto dokumen, bagi komputer, hanyalah grid piksel: tiada teks di dalamnya, hanya satu imej yang kebetulan kelihatan seperti perkataan. OCR menganalisis bentuk huruf dan membina semula rentetan aksara yang mendasarinya.

Hasilnya biasanya ditulis semula sebagai lapisan teks halimunan yang terletak tepat di atas imej asal, jadi halaman itu masih kelihatan seperti imbasan tetapi kini boleh dicari, disalin, dan diindeks. Enjin moden mengendalikan pelbagai bahasa, lajur, dan jadual, dan ketepatannya sangat bergantung pada resolusi sumber: imbasan 300 DPI yang bersih dikenali jauh lebih baik daripada gambar telefon yang kabur. Tesseract, enjin sumber terbuka itu, ialah yang paling banyak dijadikan asas oleh alat berasaskan pelayar.

Oleh sebab OCR sering berjalan ke atas dokumen sensitif, invois, kontrak, dokumen pengenalan, di mana ia berlaku ialah persoalan privasi yang nyata. reader.me menjalankan pengecaman dengan WebAssembly di dalam pelayar kamu, jadi imej halaman dan teks yang dihasilkannya kekal pada peranti kamu dan tidak pernah dihantar ke mana-mana untuk dibaca oleh sebuah pelayan.

Alat berkaitan

Istilah lain

AcroForm XFA Metadata Compression Embedded fonts Text layer

← Kembali ke glosari