GLOSSARI PDF

Glossari de PDF: termes i formats

Què vol dir de debò cada terme i format de PDF, en llenguatge planer. La terminologia que et trobes, explicada.

Formats

El PDF (Portable Document Format) és un format de fitxer que fixa la posició exacta de cada caràcter, línia i imatge d'una pàgina, de manera que un document es veu idèntic tant si l'obres en un mòbil, en un portàtil o en el RIP d'una impremta. Adobe el va crear el 1993 i va lliurar l'especificació a la ISO el 2008, on es va convertir en l'estàndard obert ISO 32000. Aquesta obertura és la raó per la qual tantes eines independents poden llegir i escriure PDF sense demanar permís a ningú.

PDF/A

El PDF/A és el perfil ISO 19005 pensat per a l'arxivament a llarg termini. L'objectiu és senzill: un document obert d'aquí a cinquanta anys s'hauria de mostrar exactament com avui, sense tipus de lletra que faltin i sense dependre de recursos externs que potser ja hauran desaparegut. Per garantir-ho, l'estàndard prohibeix tot allò que es podria trencar amb el temps.

PDF/UA

El PDF/UA (ISO 14289, on UA correspon a Universal Accessibility) és l'estàndard que fa que un PDF sigui utilitzable per persones que depenen de tecnologies d'assistència. Un lector de pantalla no pot interpretar tinta sobre una pàgina; necessita una estructura lògica a sota. El PDF/UA defineix exactament com s'ha de construir aquesta estructura.

PDF/X

El PDF/X (ISO 15930) és la família de perfils feta per a la impressió professional i les arts gràfiques. Quan un fitxer va a una impremta comercial, l'ambigüitat surt cara: un tipus de lletra que falti, una imatge en RGB on s'esperava CMYK o una caixa de tall no definida poden arruïnar tota una tirada. El PDF/X elimina aquesta ambigüitat obligant que cada detall crític per a la impressió sigui explícit.

Conceptes

OCR

L'OCR (Optical Character Recognition, reconeixement òptic de caràcters) converteix la imatge d'un text en caràcters reals i seleccionables. Una pàgina escanejada o una foto d'un document és, per a l'ordinador, només una graella de píxels: no hi ha text, només una imatge que sembla paraules. L'OCR analitza les formes de les lletres i reconstrueix la cadena de caràcters que hi ha a sota.

AcroForm

Un AcroForm és la tecnologia de formularis nativa i integrada del PDF, el tipus de formulari interactiu que forma part del format des de finals dels anys noranta. Els camps que pots emplenar en una declaració d'impostos o en una sol·licitud —quadres de text, caselles de verificació, botons d'opció, llistes desplegables i camps de signatura— són objectes AcroForm definits directament en l'estructura d'objectes del PDF.

XFA

L'XFA (XML Forms Architecture) és la tecnologia de formularis alternativa d'Adobe, en què el formulari no es defineix amb objectes natius del PDF sinó amb una càrrega XML incrustada dins de l'embolcall PDF. Es va dissenyar per a formularis complexos i dinàmics: dissenys que creixen a mesura que afegeixes files, camps que apareixen o desapareixen segons respostes anteriors i un lligam estret amb esquemes de dades del back-end.

Metadades

Les metadades són les dades sobre les teves dades, la informació que un PDF arrossega més enllà del contingut visible de la pàgina. Hi ha dos magatzems principals: el clàssic Document Information Dictionary (títol, autor, assumpte, paraules clau, el programari que el va crear i les dates de creació i modificació) i l'XMP, un bloc basat en XML que conté els mateixos camps més propietats més riques i ampliables.

Compressió

La compressió és el que manté els PDF a una mida manejable, i un sol document acostuma a barrejar diversos mètodes perquè barreja diversos tipus de contingut. El text i les instruccions de dibuix vectorial es comprimeixen sense pèrdua amb Flate (el mateix algorisme Deflate que hi ha darrere del ZIP), de manera que cada caràcter torna exactament tal com va entrar.

Tipus de lletra incrustats

Els tipus de lletra incrustats són tipografies empaquetades dins del mateix PDF en lloc de manllevar-les de l'ordinador que l'obre. Aquesta és la característica que fa que el PDF sigui genuïnament portàtil: si el tipus de lletra viatja amb el document, el text es representa idènticament a tot arreu, fins i tot en una màquina que no ha tingut mai aquesta tipografia instal·lada.

Capa de text

La capa de text és la part d'un PDF que conté caràcters reals, llegibles per màquina: el contingut que pots seleccionar amb el cursor, copiar, cercar i fer llegir en veu alta. Un PDF creat des d'un processador de textos o una aplicació de maquetació té aquesta capa de manera nativa, amb cada caràcter assignat a una posició i un tipus de lletra.

Marca d'aigua

Una marca d'aigua és text o una imatge col·locats sobre les pàgines d'un PDF per indicar-ne l'estat o la propietat: un «ESBORRANY» o «CONFIDENCIAL» tènue en diagonal, el logotip d'una empresa o una línia de copyright. Assenyala una intenció sense tapar el contingut subjacent, normalment perquè és semitransparent o se situa darrere del text principal.

Linealització (Fast Web View)

La linealització, comercialitzada per Adobe com a Fast Web View, és una manera de reorganitzar l'ordre intern de bytes d'un PDF perquè es pugui mostrar abans que hagi arribat tot el fitxer. En un PDF normal, la taula de referències creuades que indexa cada objecte se situa al final de tot, així que tècnicament un visor necessita el fitxer complet per saber on és cada cosa.

Seguretat

Xifratge AES

L'AES (Advanced Encryption Standard) és el xifratge de blocs que protegeix un PDF amb contrasenya. Quan bloqueges un document, els fluxos de contingut de les pàgines i les cadenes es xifren amb AES, i l'única manera de tornar als bytes llegibles és facilitar la contrasenya correcta i derivar-ne la clau correcta. Sense això, el fitxer al disc no és més que text xifrat.

Signatura electrònica

Una signatura electrònica és, en el sentit legal més ampli, qualsevol dada adjuntada a un document que indica la voluntat del signant d'estar-hi d'acord, des d'un nom escrit o un gargot dibuixat fins a un segell amb suport criptogràfic. El reglament europeu eIDAS les ordena en nivells, i la distinció importa quan una signatura ha de sostenir-se més endavant.

Signatura digital

Una signatura digital és el mecanisme criptogràfic que demostra qui ha signat un PDF i que ningú no l'ha alterat des d'aleshores. És el motor tècnic en què es basen les signatures electròniques més fortes, i es construeix a partir de la criptografia de clau pública, no de cap dibuix d'un traç de bolígraf.

Imatges

Gràfic vectorial

Els gràfics vectorials descriuen una imatge com a matemàtiques —punts, línies, corbes i emplenats— en lloc d'una graella fixa de punts de color. Un cercle es guarda com un centre, un radi i un color, així que l'ordinador el torna a dibuixar a la mida que se li demani. La conseqüència és la propietat que defineix l'art vectorial: escala a qualsevol mida sense pèrdua de nitidesa.

Imatge ràster

Una imatge ràster és una graella rectangular de píxels, cadascun amb un valor de color: és el model que hi ha darrere de qualsevol fotografia i escaneig. A diferència d'un vector, un ràster té una resolució nativa fixa: guarda exactament tants punts d'amplada i d'alçada, i tot el seu detall queda cuit dins d'aquesta graella.

JPG / JPEG

El JPG (també escrit JPEG, pel Joint Photographic Experts Group que el va definir) és el format ràster amb pèrdua fet per a fotografies. Funciona transformant la imatge en components de freqüència i descartant el detall fi que l'ull humà difícilment trobarà a faltar, i així és com encabeix una foto a tot color en un fitxer petit.

PNG

El PNG (Portable Network Graphics) és el format ràster sense pèrdua per a gràfics amb marges nets i color pla: captures de pantalla, logotips, icones, diagrames i qualsevol cosa que contingui text. Sense pèrdua vol dir que guarda la imatge exactament: torna-la a desar tantes vegades com vulguis i no canvia ni un sol píxel, el contrari de la degradació generacional del JPEG.

WebP

El WebP és un format d'imatge de Google que vol substituir alhora el JPEG i el PNG amb un sol contenidor. El seu truc és admetre dos modes: compressió amb pèrdua per a fotografies, com el JPEG, i compressió sense pèrdua per a gràfics, com el PNG, tot produint normalment fitxers més petits que tots dos a una qualitat comparable.

TIFF

El TIFF (Tagged Image File Format) és el format ràster de pes pesant que s'utilitza en l'arxivament, l'escaneig i la imatge professional. El seu nom ve de la seva estructura: un conjunt flexible d'etiquetes que descriuen la imatge, cosa que permet que un sol TIFF contingui dades sense comprimir o comprimides sense pèrdua, grans profunditats de bits, perfils de color incrustats i una bona quantitat de metadades tècniques.

SVG

L'SVG (Scalable Vector Graphics) és un format vectorial obert basat en XML, una imatge escrita com a text llegible que descriu formes, traçats, colors i text. Com que és vectorial, escala a qualsevol mida amb marges perfectament nítids, i com que és XML, es pot estilitzar amb CSS, animar i fins i tot cercar o editar en un editor de text pla.

PPP / DPI

El PPP (punts per polzada; en anglès DPI, dots per inch) mesura la resolució, quants punts de detall s'apinyen en cada polzada d'una imatge o impressió. Com més alt és el nombre, més fi és el detall i més gran és el fitxer. És l'ajust que més sovint decideix si un escaneig o una exportació es veuen nítids o decebedors.