OCR

OCR (Optical Character Recognition) zet een afbeelding van tekst om in echte, selecteerbare tekens. Een gescande pagina of een foto van een document is voor een computer slechts een raster van pixels: er zit geen tekst in, alleen een afbeelding die toevallig op woorden lijkt. OCR analyseert de vormen van letters en reconstrueert de onderliggende reeks tekens.

Het resultaat wordt meestal teruggeschreven als een onzichtbare tekstlaag die precies boven op de oorspronkelijke afbeelding ligt, zodat de pagina er nog steeds als de scan uitziet, maar nu doorzoekbaar, kopieerbaar en indexeerbaar is. Moderne engines verwerken meerdere talen, kolommen en tabellen, en de nauwkeurigheid hangt sterk af van de bronresolutie: een schone scan van 300 DPI wordt veel beter herkend dan een wazige telefoonfoto. Tesseract, de opensource-engine, is degene waarop de meeste browsergebaseerde tools voortbouwen.

Omdat OCR vaak draait over gevoelige papieren, facturen, contracten, identiteitsbewijzen, is de vraag waar dat gebeurt een echte privacykwestie. reader.me voert de herkenning uit met WebAssembly binnen je browser, zodat de pagina-afbeelding en de tekst die eruit komt op je apparaat blijven en nooit ergens heen worden gestuurd om door een server gelezen te worden.

Gerelateerde tools

Meer termen

AcroForm XFA Metadata Compression Embedded fonts Text layer

← Terug naar de woordenlijst