OCR

OCR (Optical Character Recognition, optische Zeichenerkennung) verwandelt das Bild von Text in echte, markierbare Zeichen. Eine gescannte Seite oder das Foto eines Dokuments ist für einen Computer nur ein Raster aus Pixeln: Darin steckt kein Text, nur ein Bild, das zufällig wie Wörter aussieht. OCR analysiert die Formen der Buchstaben und rekonstruiert die zugrunde liegende Zeichenkette.

Das Ergebnis wird meist als unsichtbare Textebene zurückgeschrieben, die exakt über dem Originalbild liegt, sodass die Seite weiterhin wie der Scan aussieht, jetzt aber durchsuchbar, kopierbar und indexierbar ist. Moderne Engines beherrschen mehrere Sprachen, Spalten und Tabellen, und die Genauigkeit hängt stark von der Auflösung der Vorlage ab: Ein sauberer 300-DPI-Scan wird weit besser erkannt als ein verwackelter Handy-Schnappschuss. Tesseract, die quelloffene Engine, ist diejenige, auf der die meisten browserbasierten Werkzeuge aufbauen.

Weil OCR oft über sensible Unterlagen läuft – Rechnungen, Verträge, Ausweisdokumente –, ist es eine echte Datenschutzfrage, wo das geschieht. reader.me führt die Erkennung mit WebAssembly in deinem Browser aus, sodass das Seitenbild und der daraus erzeugte Text auf deinem Gerät bleiben und nie irgendwohin geschickt werden, um von einem Server gelesen zu werden.

Verwandte Tools

Weitere Begriffe

AcroForm XFA Metadata Compression Embedded fonts Text layer

← Zurück zum Glossar