Tekstlaag
De tekstlaag is het deel van een PDF dat echte, machineleesbare tekens bevat, de inhoud die je met de cursor kunt selecteren, kopiëren, doorzoeken en hardop kunt laten voorlezen. Een PDF die uit een tekstverwerker of opmaakprogramma komt, heeft deze laag van nature, met elk teken gekoppeld aan een positie en een lettertype.
Het contrast is de gescande PDF, die vaak slechts een afbeelding van een pagina is, verpakt in een PDF-omhulling. Hij ziet eruit als een document, maar er zit geen tekst onder, dus een zoekopdracht vindt niets en selecteren grijpt niets. OCR voegt de ontbrekende laag toe: het herkent de tekens in de afbeelding en schrijft ze terug als een onzichtbare tekstlaag die is uitgelijnd op de zichtbare pixels, waardoor de pagina er hetzelfde uitziet maar volledig doorzoekbaar wordt.
Weten of een bestand een echte tekstlaag heeft, verklaart veel alledaagse frustratie, waarom de ene PDF doorzoekbaar is en de andere niet. Wanneer je die laag nodig hebt, betekent hem lokaal genereren dat de woorden van het document op je eigen apparaat worden geëxtraheerd in plaats van doorgegeven aan een externe dienst die ze zou kunnen bewaren.
Gerelateerde tools