OCR

OCR (Optical Character Recognition) mengubah gambar teks menjadi karakter yang benar-benar bisa dipilih. Sebuah halaman pindaian atau foto dokumen, bagi komputer, hanyalah kisi piksel: tidak ada teks di dalamnya, hanya gambar yang kebetulan terlihat seperti kata-kata. OCR menganalisis bentuk huruf dan menyusun kembali rangkaian karakter di baliknya.

Hasilnya biasanya dituliskan kembali sebagai lapisan teks tak terlihat yang duduk persis di atas gambar asli, jadi halaman tetap terlihat seperti pindaian tetapi kini bisa dicari, disalin, dan diindeks. Mesin modern menangani banyak bahasa, kolom, dan tabel, dan akurasinya sangat bergantung pada resolusi sumber: pindaian bersih 300 DPI dikenali jauh lebih baik daripada jepretan ponsel yang buram. Tesseract, mesin sumber terbuka itu, adalah yang paling banyak menjadi dasar alat berbasis browser.

Karena OCR sering dijalankan pada dokumen sensitif, faktur, kontrak, dokumen identitas, di mana ia berlangsung adalah pertanyaan privasi yang nyata. reader.me menjalankan pengenalan dengan WebAssembly di dalam browser-mu, jadi gambar halaman dan teks yang dihasilkannya tetap berada di perangkatmu dan tidak pernah dikirim ke mana pun untuk dibaca oleh server.

Alat terkait

Istilah lainnya

AcroForm XFA Metadata Compression Embedded fonts Text layer

← Kembali ke glosarium