Couche de texte

La couche de texte est la partie d'un PDF qui contient de véritables caractères lisibles par la machine, le contenu que vous pouvez sélectionner au curseur, copier, rechercher et faire lire à voix haute. Un PDF créé depuis un traitement de texte ou un logiciel de mise en page possède cette couche nativement, chaque caractère étant associé à une position et à une police.

À l'opposé se trouve le PDF scanné, qui n'est souvent qu'une image de page emballée dans une enveloppe PDF. Cela ressemble à un document, mais il n'y a pas de texte en dessous : une recherche ne trouve rien et la sélection n'attrape rien. C'est l'OCR qui ajoute la couche manquante : il reconnaît les caractères dans l'image et les réécrit sous forme de couche de texte invisible alignée sur les pixels visibles, laissant la page inchangée tout en la rendant entièrement consultable.

Savoir si un fichier possède une vraie couche de texte explique bien des frustrations quotidiennes, à savoir pourquoi un PDF est consultable et un autre non. Quand vous avez besoin de cette couche, la générer en local signifie que les mots du document sont extraits sur votre propre machine, plutôt que transmis à un service distant susceptible de les conserver.

Outils associés

Plus de termes

OCR AcroForm XFA Metadata Compression Embedded fonts

← Retour au glossaire