Skip to content
reader.me

OCR

OCR (Optical Character Recognition, Optik Karakter Tanıma), metnin resmini gerçek ve seçilebilir karakterlere dönüştürür. Taranmış bir sayfa ya da bir belgenin fotoğrafı, bir bilgisayar için yalnızca bir piksel ızgarasıdır: içinde metin yoktur, sözcüklere benzeyen bir görüntü vardır yalnızca. OCR, harflerin biçimlerini analiz eder ve altta yatan karakter dizisini yeniden oluşturur.

Sonuç genellikle orijinal görüntünün tam üstüne oturan görünmez bir metin katmanı olarak geri yazılır; böylece sayfa hâlâ tarama gibi görünür ama artık aranabilir, kopyalanabilir ve dizinlenebilirdir. Modern motorlar birden çok dili, sütunu ve tabloyu işler ve doğruluk büyük ölçüde kaynak çözünürlüğüne bağlıdır: temiz bir 300 DPI tarama, bulanık bir telefon fotoğrafından çok daha iyi tanınır. Açık kaynaklı motor Tesseract, tarayıcı tabanlı araçların çoğunun üzerine inşa edildiği motordur.

OCR çoğu zaman hassas evrak (faturalar, sözleşmeler, kimlik belgeleri) üzerinde çalıştığı için, nerede gerçekleştiği gerçek bir gizlilik meselesidir. reader.me tanıma işlemini tarayıcınızın içinde WebAssembly ile çalıştırır; böylece sayfa görüntüsü ve ürettiği metin cihazınızda kalır ve bir sunucu tarafından okunmak üzere hiçbir yere gönderilmez.