GLOSSAIRE PDF

Glossaire PDF : termes et formats

Ce que signifient vraiment chaque terme et chaque format PDF, en langage clair. Le jargon que vous croisez, enfin expliqué.

Formats

PDF

Le PDF (Portable Document Format) est un format de fichier qui fige la position exacte de chaque caractère, de chaque trait et de chaque image sur une page. Le document s'affiche ainsi à l'identique, qu'on l'ouvre sur un téléphone, un ordinateur portable ou le RIP d'une imprimerie. Adobe l'a créé en 1993 et a remis la spécification à l'ISO en 2008, où il est devenu le standard ouvert ISO 32000. C'est précisément cette ouverture qui permet à tant d'outils indépendants de lire et d'écrire des PDF sans demander la permission à quiconque.

PDF/A

Le PDF/A est le profil ISO 19005 conçu pour l'archivage à long terme. L'objectif est simple : un document ouvert dans cinquante ans doit s'afficher exactement comme aujourd'hui, sans police manquante et sans dépendre de ressources externes qui auraient pu disparaître. Pour le garantir, le standard interdit tout ce qui pourrait se casser avec le temps.

PDF/UA

Le PDF/UA (ISO 14289, où UA signifie Universal Accessibility) est le standard qui rend un PDF utilisable par les personnes qui dépendent des technologies d'assistance. Un lecteur d'écran ne peut rien comprendre à de l'encre sur une page : il lui faut une structure logique en dessous. Le PDF/UA définit exactement comment construire cette structure.

PDF/X

Le PDF/X (ISO 15930) est la famille de profils pensée pour l'impression professionnelle et les arts graphiques. Quand un fichier part chez un imprimeur, l'ambiguïté coûte cher : une police manquante, une image en RVB là où on attendait du CMJN, ou une zone de rognage non définie peuvent ruiner tout un tirage. Le PDF/X supprime cette ambiguïté en forçant chaque détail critique pour l'impression à être explicite.

Concepts

OCR

L'OCR (Optical Character Recognition, reconnaissance optique de caractères) transforme l'image d'un texte en véritables caractères sélectionnables. Une page scannée ou la photo d'un document n'est, pour un ordinateur, qu'une grille de pixels : il n'y a pas de texte dedans, seulement une image qui ressemble à des mots. L'OCR analyse la forme des lettres et reconstruit la chaîne de caractères sous-jacente.

AcroForm

Un AcroForm est la technologie de formulaires native du PDF, ce type de formulaire interactif qui fait partie du format depuis la fin des années 1990. Les champs à remplir que vous voyez dans une déclaration d'impôts ou un dossier de candidature — zones de texte, cases à cocher, boutons radio, listes déroulantes et champs de signature — sont des objets AcroForm définis directement dans la structure objet du PDF.

XFA

Le XFA (XML Forms Architecture) est la technologie de formulaires alternative d'Adobe, dans laquelle le formulaire n'est pas défini par des objets PDF natifs mais par une charge utile XML intégrée à l'intérieur de l'enveloppe PDF. Il a été conçu pour des formulaires complexes et dynamiques : des mises en page qui s'agrandissent quand on ajoute des lignes, des champs qui apparaissent ou disparaissent selon les réponses précédentes, et un lien étroit avec des schémas de données en arrière-plan.

Métadonnées

Les métadonnées sont les données à propos de vos données, l'information qu'un PDF transporte au-delà du contenu visible de la page. Il existe deux réservoirs principaux : le Document Information Dictionary historique (titre, auteur, sujet, mots-clés, logiciel de création, dates de création et de modification) et le XMP, un bloc fondé sur XML qui contient les mêmes champs plus des propriétés plus riches et extensibles.

Compression

La compression est ce qui garde la taille des fichiers PDF sous contrôle, et un même document mélange en général plusieurs méthodes parce qu'il mélange plusieurs types de contenu. Le texte et les instructions de dessin vectoriel se compressent sans perte avec Flate (le même algorithme Deflate que celui du ZIP) : chaque caractère revient exactement tel qu'il est entré.

Polices intégrées

Les polices intégrées sont des caractères empaquetés à l'intérieur du PDF lui-même plutôt qu'empruntés à l'ordinateur qui l'ouvre. C'est cette fonctionnalité qui rend le PDF véritablement portable : si la police voyage avec le document, le texte s'affiche à l'identique partout, même sur une machine où cette police n'a jamais été installée.

Couche de texte

La couche de texte est la partie d'un PDF qui contient de véritables caractères lisibles par la machine, le contenu que vous pouvez sélectionner au curseur, copier, rechercher et faire lire à voix haute. Un PDF créé depuis un traitement de texte ou un logiciel de mise en page possède cette couche nativement, chaque caractère étant associé à une position et à une police.

Filigrane

Un filigrane est un texte ou une image apposé sur les pages d'un PDF pour en marquer le statut ou la propriété : un discret « BROUILLON » ou « CONFIDENTIEL » en diagonale, un logo d'entreprise, ou une ligne de copyright. Il signale une intention sans masquer le contenu sous-jacent, en étant généralement semi-transparent ou placé derrière le texte principal.

Linéarisation (Fast Web View)

La linéarisation, commercialisée par Adobe sous le nom de Fast Web View, est une manière de réorganiser l'ordre interne des octets d'un PDF pour qu'il puisse s'afficher avant l'arrivée du fichier complet. Dans un PDF normal, la table de références croisées qui indexe chaque objet se trouve tout à la fin : techniquement, une visionneuse a donc besoin du fichier entier pour savoir où se trouvent les choses.

Sécurité

Chiffrement AES

L'AES (Advanced Encryption Standard) est l'algorithme de chiffrement par blocs qui sécurise un PDF protégé par mot de passe. Quand vous verrouillez un document, les flux de contenu et les chaînes de texte des pages sont chiffrés avec AES, et le seul retour vers des octets lisibles passe par le bon mot de passe et la dérivation de la bonne clé. Sans cela, le fichier sur le disque n'est que du texte chiffré.

Signature électronique

Une signature électronique est, au sens juridique le plus large, toute donnée attachée à un document qui exprime l'intention du signataire d'y consentir, depuis un nom tapé ou un gribouillis tracé jusqu'à un sceau adossé à de la cryptographie. Le règlement européen eIDAS répartit ces signatures en niveaux, et la distinction compte lorsqu'une signature doit tenir face à une contestation ultérieure.

Signature numérique

Une signature numérique est le mécanisme cryptographique qui prouve qui a signé un PDF et que personne ne l'a modifié depuis. C'est le moteur technique sur lequel reposent les signatures électroniques les plus solides, et il repose sur la cryptographie à clé publique plutôt que sur une quelconque image de trait de plume.

Images

Graphique vectoriel

Un graphique vectoriel décrit une image sous forme de mathématiques — points, lignes, courbes et remplissages — plutôt que sous forme de grille fixe de points colorés. Un cercle est stocké comme un centre, un rayon et une couleur, si bien que l'ordinateur le redessine à la taille demandée. Il en découle la propriété qui définit l'art vectoriel : il se met à n'importe quelle échelle sans perte de netteté.

Image matricielle (raster)

Une image matricielle (raster) est une grille rectangulaire de pixels, chacun portant une valeur de couleur : c'est le modèle derrière toute photographie et tout scan. Contrairement à un vecteur, une image matricielle a une résolution native fixe : elle stocke un nombre précis de points en largeur et en hauteur, et tout son détail est figé dans cette grille.

JPG / JPEG

Le JPG (aussi écrit JPEG, d'après le Joint Photographic Experts Group qui l'a défini) est le format matriciel avec perte conçu pour les photographies. Il fonctionne en transformant l'image en composantes de fréquence et en écartant le détail fin que l'œil humain est le moins susceptible de remarquer : c'est ainsi qu'il fait tenir une photo en couleurs dans un petit fichier.

PNG

Le PNG (Portable Network Graphics) est le format matriciel sans perte pour les graphiques aux bords nets et aux aplats de couleur : captures d'écran, logos, icônes, diagrammes et tout ce qui contient du texte. Sans perte signifie qu'il stocke l'image exactement : réenregistrez-le aussi souvent que vous voulez, pas un seul pixel ne change, à l'opposé de la dégradation générationnelle du JPEG.

WebP

Le WebP est un format d'image de Google qui vise à remplacer à la fois le JPEG et le PNG par un seul conteneur. Son astuce est de prendre en charge deux modes : la compression avec perte pour les photographies, comme le JPEG, et la compression sans perte pour les graphiques, comme le PNG, tout en produisant généralement des fichiers plus petits que l'un comme l'autre à qualité comparable.

TIFF

Le TIFF (Tagged Image File Format) est le format matriciel poids lourd utilisé en archivage, en numérisation et en imagerie professionnelle. Son nom vient de sa structure : un ensemble souple de balises (tags) décrivant l'image, ce qui permet à un seul TIFF de contenir des données non compressées ou compressées sans perte, de grandes profondeurs de bits, des profils colorimétriques intégrés et une foule de métadonnées techniques.

SVG

Le SVG (Scalable Vector Graphics) est un format vectoriel ouvert fondé sur XML, une image écrite sous forme de texte lisible décrivant des formes, des tracés, des couleurs et du texte. Parce qu'il est vectoriel, il se met à n'importe quelle échelle avec des bords parfaitement nets, et parce qu'il est en XML, il peut être stylé avec du CSS, animé, et même recherché ou édité dans un simple éditeur de texte.

PPP / DPI

Le DPI (dots per inch, points par pouce) mesure la résolution, c'est-à-dire combien de points de détail sont concentrés dans chaque pouce d'une image ou d'une impression. Plus le nombre est élevé, plus le détail est fin et plus le fichier est gros. C'est le réglage qui, le plus souvent, décide si un scan ou un export paraît net ou décevant.