Textebene

Die Textebene ist der Teil eines PDFs, der echte, maschinenlesbare Zeichen enthält – der Inhalt, den du mit dem Cursor markieren, kopieren, durchsuchen und vorlesen lassen kannst. Ein aus einer Textverarbeitung oder einem Layoutprogramm erstelltes PDF hat diese Ebene von Haus aus, mit jedem Zeichen einer Position und einer Schrift zugeordnet.

Den Gegensatz bildet das gescannte PDF, das oft nur ein Bild einer Seite in PDF-Verpackung ist. Es sieht aus wie ein Dokument, aber darunter steckt kein Text, also findet eine Suche nichts und eine Markierung greift ins Leere. OCR fügt die fehlende Ebene hinzu: Es erkennt die Zeichen im Bild und schreibt sie als unsichtbare, an den sichtbaren Pixeln ausgerichtete Textebene zurück, sodass die Seite gleich aussieht, aber vollständig durchsuchbar wird.

Zu wissen, ob eine Datei eine echte Textebene hat, erklärt viel alltäglichen Frust – warum ein PDF durchsuchbar ist und ein anderes nicht. Wenn du diese Ebene brauchst, bedeutet sie lokal zu erzeugen, dass die Wörter des Dokuments auf dem eigenen Rechner extrahiert werden, statt an einen entfernten Dienst weitergereicht zu werden, der sie aufbewahren könnte.

Verwandte Tools

Weitere Begriffe

OCR AcroForm XFA Metadata Compression Embedded fonts

← Zurück zum Glossar