Capa de text
La capa de text és la part d'un PDF que conté caràcters reals, llegibles per màquina: el contingut que pots seleccionar amb el cursor, copiar, cercar i fer llegir en veu alta. Un PDF creat des d'un processador de textos o una aplicació de maquetació té aquesta capa de manera nativa, amb cada caràcter assignat a una posició i un tipus de lletra.
El contrast és el PDF escanejat, que sovint és només una imatge d'una pàgina embolcallada en un PDF. Sembla un document, però a sota no hi ha text, així que una cerca no troba res i la selecció no agafa res. L'OCR és el que hi afegeix la capa que falta: reconeix els caràcters de la imatge i els torna a escriure com una capa de text invisible alineada amb els píxels visibles, deixant la pàgina amb el mateix aspecte però fent-la totalment cercable.
Saber si un fitxer té una capa de text de debò explica moltes frustracions del dia a dia, com ara per què un PDF és cercable i un altre no ho és. Quan necessites aquesta capa, generar-la en local vol dir que les paraules del document s'extreuen a la teva pròpia màquina en lloc de passar-les a un servei remot que les podria conservar.
Eines relacionades