GLOSSARIO PDF

Glossario PDF: termini e formati

Cosa significa davvero ogni termine e formato che incontri lavorando con i PDF, spiegato in parole semplici. Il gergo in cui ti imbatti, chiarito.

Formati

PDF

Il PDF (Portable Document Format) è un formato di file che fissa la posizione esatta di ogni carattere, riga e immagine sulla pagina, così un documento appare identico che lo apri sul telefono, sul portatile o sul RIP di una tipografia. Adobe lo creò nel 1993 e nel 2008 cedette la specifica all'ISO, dove divenne lo standard aperto ISO 32000. Proprio quell'apertura è il motivo per cui così tanti strumenti indipendenti possono leggere e scrivere PDF senza chiedere il permesso a nessuno.

PDF/A

PDF/A è il profilo ISO 19005 costruito per l'archiviazione a lungo termine. L'obiettivo è semplice: un documento aperto fra cinquant'anni dovrebbe apparire esattamente come oggi, senza font mancanti e senza dipendere da risorse esterne che potrebbero essere sparite. Per garantirlo, lo standard vieta tutto ciò che potrebbe rompersi col tempo.

PDF/UA

PDF/UA (ISO 14289, dove UA sta per Universal Accessibility) è lo standard che rende un PDF utilizzabile dalle persone che si affidano alle tecnologie assistive. Uno screen reader non può dare un senso all'inchiostro su una pagina: ha bisogno di una struttura logica sottostante. PDF/UA definisce con precisione come quella struttura va costruita.

PDF/X

PDF/X (ISO 15930) è la famiglia di profili pensata per la stampa professionale e le arti grafiche. Quando un file va in una tipografia commerciale, l'ambiguità costa cara: un font mancante, un'immagine RGB dove ci si aspettava il CMYK o una trim box non definita possono rovinare un'intera tiratura. PDF/X elimina quell'ambiguità obbligando a rendere esplicito ogni dettaglio critico per la stampa.

Concetti

OCR

L'OCR (Optical Character Recognition) trasforma l'immagine di un testo in caratteri veri e selezionabili. Una pagina scansionata o la foto di un documento, per un computer, è solo una griglia di pixel: non contiene testo, solo un'immagine che per caso sembra fatta di parole. L'OCR analizza le forme delle lettere e ricostruisce la sequenza di caratteri che vi sta sotto.

AcroForm

Un AcroForm è la tecnologia nativa e integrata del PDF per i moduli, quel tipo di modulo interattivo che fa parte del formato fin dalla fine degli anni '90. I campi compilabili che vedi in una dichiarazione dei redditi o in una domanda, caselle di testo, caselle di spunta, pulsanti di opzione, menu a tendina e campi firma, sono oggetti AcroForm definiti direttamente nella struttura a oggetti del PDF.

XFA

XFA (XML Forms Architecture) è la tecnologia alternativa di Adobe per i moduli, in cui il modulo è definito non da oggetti PDF nativi ma da un payload XML incorporato dentro l'involucro PDF. Era pensata per moduli complessi e dinamici: layout che crescono man mano che aggiungi righe, campi che compaiono o spariscono in base alle risposte precedenti e un legame stretto con gli schemi di dati di back-end.

Metadati

I metadati sono i dati sui tuoi dati, le informazioni che un PDF porta con sé oltre al contenuto visibile della pagina. Ci sono due archivi principali: il vecchio Document Information Dictionary (titolo, autore, oggetto, parole chiave, il software che lo ha creato e le date di creazione e modifica) e XMP, un blocco basato su XML che contiene gli stessi campi più proprietà più ricche ed estensibili.

Compressione

La compressione è ciò che tiene gestibili le dimensioni dei file PDF, e un singolo documento di solito mescola più metodi perché mescola più tipi di contenuto. Il testo e le istruzioni di disegno vettoriale si comprimono senza perdita con Flate (lo stesso algoritmo Deflate dietro lo ZIP), così ogni carattere torna esattamente com'era entrato.

Font incorporati

I font incorporati sono caratteri tipografici impacchettati dentro il PDF stesso anziché presi in prestito dal computer che lo apre. È la caratteristica che rende il PDF davvero portatile: se il font viaggia con il documento, il testo viene reso in modo identico ovunque, anche su una macchina su cui quel carattere non è mai stato installato.

Livello di testo

Il livello di testo è la parte di un PDF che contiene caratteri reali e leggibili dalla macchina, il contenuto che puoi selezionare col cursore, copiare, cercare e far leggere ad alta voce. Un PDF creato da un elaboratore di testi o da un programma di impaginazione ha questo livello in modo nativo, con ogni carattere mappato a una posizione e a un font.

Filigrana

Una filigrana è un testo o un'immagine sovrapposti alle pagine di un PDF per segnalarne lo stato o la proprietà, una scritta sbiadita "BOZZA" o "RISERVATO" in diagonale sulla pagina, il logo di un'azienda o una riga di copyright. Comunica un'intenzione senza nascondere il contenuto sottostante, di solito perché è semitrasparente o sta dietro al testo principale.

Linearizzazione

La linearizzazione, commercializzata da Adobe come Fast Web View, è un modo di riorganizzare l'ordine interno dei byte di un PDF così da poterlo visualizzare prima che l'intero file sia arrivato. In un PDF normale la tabella di riferimenti incrociati che indicizza ogni oggetto sta proprio alla fine, quindi un visualizzatore ha tecnicamente bisogno del file completo per sapere dove si trovano le cose.

Sicurezza

AES

AES (Advanced Encryption Standard) è il cifrario a blocchi che protegge un PDF con password. Quando blocchi un documento, i flussi di contenuto e le stringhe delle pagine vengono cifrati con AES, e l'unico modo per tornare ai byte leggibili è fornire la password giusta e derivare la chiave corretta. Senza, il file su disco è solo testo cifrato.

Firma elettronica

Una firma elettronica è, nel senso giuridico più ampio, qualsiasi dato allegato a un documento che indichi la volontà del firmatario di accettare, da un nome digitato o uno scarabocchio tracciato fino a un sigillo garantito da crittografia. Il regolamento europeo eIDAS le ordina in livelli, e la distinzione conta quando una firma deve reggere nel tempo.

Firma digitale

Una firma digitale è il meccanismo crittografico che dimostra chi ha firmato un PDF e che da allora nessuno lo ha alterato. È il motore tecnico su cui si appoggiano le firme elettroniche più forti, ed è costruita sulla crittografia a chiave pubblica anziché su una qualsiasi immagine di un tratto di penna.

Immagini

Grafica vettoriale

La grafica vettoriale descrive un'immagine come matematica, punti, linee, curve e riempimenti, anziché come una griglia fissa di puntini colorati. Un cerchio è memorizzato come un centro, un raggio e un colore, così il computer lo ridisegna a qualsiasi dimensione gli si chieda. La conseguenza è la proprietà che definisce l'arte vettoriale: scala a qualunque dimensione senza perdere nitidezza.

Raster

Un'immagine raster è una griglia rettangolare di pixel, ciascuno con un valore di colore, il modello dietro ogni fotografia e ogni scansione. A differenza di un vettore, un raster ha una risoluzione nativa fissa: memorizza esattamente un certo numero di puntini in larghezza e in altezza, e tutto il suo dettaglio è cotto dentro quella griglia.

JPG

JPG (scritto anche JPEG, dal Joint Photographic Experts Group che lo definì) è il formato raster con perdita costruito per le fotografie. Funziona trasformando l'immagine in componenti di frequenza e scartando il dettaglio fine che l'occhio umano ha meno probabilità di notare, ed è così che riesce a comprimere una foto a colori pieni in un file piccolo.

PNG

PNG (Portable Network Graphics) è il formato raster senza perdita per grafiche con bordi netti e colore piatto, screenshot, loghi, icone, diagrammi e tutto ciò che contiene testo. Senza perdita significa che memorizza l'immagine esattamente: risalvala quante volte vuoi e non cambia un solo pixel, l'opposto del decadimento generazionale del JPEG.

WebP

WebP è un formato di immagine di Google che punta a sostituire sia JPEG sia PNG con un unico contenitore. Il suo trucco è supportare due modalità: compressione con perdita per le fotografie, come JPEG, e compressione senza perdita per le grafiche, come PNG, producendo in genere file più piccoli di entrambi a parità di qualità.

TIFF

TIFF (Tagged Image File Format) è il formato raster pesante usato nell'archiviazione, nella scansione e nell'imaging professionale. Il nome viene dalla sua struttura: un insieme flessibile di tag che descrivono l'immagine, il che permette a un singolo TIFF di contenere dati non compressi o compressi senza perdita, profondità di bit elevate, profili colore incorporati e una grande quantità di metadati tecnici.

SVG

SVG (Scalable Vector Graphics) è un formato vettoriale aperto e basato su XML, un'immagine scritta come testo leggibile che descrive forme, percorsi, colori e testo. Poiché è vettoriale, scala a qualunque dimensione con bordi perfettamente netti, e poiché è XML, può essere stilizzato con CSS, animato e persino cercato o modificato in un semplice editor di testo.

DPI

DPI (dots per inch, punti per pollice) misura la risoluzione, quanti punti di dettaglio sono stipati in ogni pollice di un'immagine o di una stampa. Più alto è il numero, più fine è il dettaglio e più grande è il file. È l'impostazione singola che più spesso decide se una scansione o un'esportazione appaiono nitide o deludenti.