GLOSARIO PDF

Glosario de PDF: términos y formatos

Qué significa cada término y formato que te encuentras al trabajar con PDF. Explicado claro, sin tecnicismos innecesarios.

Formatos

PDF

PDF (Portable Document Format) es un formato creado por Adobe en 1993 y publicado como estándar abierto ISO 32000 en 2008. Su gracia es que un PDF se ve igual en cualquier dispositivo: lleva dentro su propia descripción de páginas, fuentes, imágenes y vectores, así que no depende del programa ni del sistema con el que lo abras.

PDF/A

PDF/A es la variante del PDF pensada para archivar documentos a largo plazo, definida en la norma ISO 19005. La idea es que el fichero siga siendo legible dentro de veinte o cincuenta años, cuando el software actual ya no exista. Por eso es el formato que exigen administraciones, archivos históricos y muchos sistemas de gestión documental.

PDF/UA

PDF/UA (Universal Accessibility) es el estándar ISO 14289 que define cómo debe construirse un PDF para que sea accesible, sobre todo con lectores de pantalla. No es lo mismo que un PDF normal con texto seleccionable: PDF/UA exige una estructura semántica real debajo del contenido visual.

PDF/X

PDF/X es la familia de estándares ISO 15930 pensada para artes gráficas e imprenta profesional. Cuando mandas un archivo a imprimir, cualquier ambigüedad sobre el color, las fuentes o las tintas puede acabar en una tirada estropeada. PDF/X elimina esa ambigüedad fijando reglas estrictas sobre qué puede y qué no puede llevar el fichero.

Conceptos

OCR

OCR (Optical Character Recognition, reconocimiento óptico de caracteres) es la tecnología que convierte la imagen de un texto en texto real, seleccionable y buscable. Cuando escaneas un papel o haces una foto a un documento, lo que obtienes es una imagen: el ordenador ve píxeles, no letras. El OCR analiza esos píxeles y deduce qué caracteres representan.

AcroForm

AcroForm es el sistema de formularios nativo del PDF, el que define la propia especificación ISO 32000. Son los formularios que rellenas directamente en el lector: casillas de verificación, campos de texto, listas desplegables y botones de opción que viven como objetos dentro del documento.

XFA

XFA (XML Forms Architecture) es la tecnología de formularios que Adobe introdujo en torno a 2003, basada en XML en lugar de en los objetos nativos del PDF. En vez de guardar los campos dentro de la estructura del documento, un formulario XFA lleva una plantilla XML que el visor tiene que renderizar dinámicamente, con campos que pueden crecer, repetirse o cambiar según lo que rellenas.

Metadatos

Los metadatos son los datos sobre el documento que viajan dentro del propio PDF sin formar parte del contenido visible: título, autor, aplicación que lo creó, fechas de creación y modificación, palabras clave o el software exacto que generó el archivo. Hay dos sistemas que conviven en un PDF: el diccionario clásico de información del documento y el bloque XMP, un fragmento XML estándar de Adobe.

Compresión

Comprimir un PDF es reducir su tamaño en bytes sin que el documento deje de ser usable. Un PDF pesa por motivos concretos: imágenes a mayor resolución de la necesaria, fuentes incrustadas completas, objetos duplicados o flujos sin comprimir. La compresión actúa sobre cada uno de esos frentes.

Fuentes incrustadas

Una fuente incrustada es una tipografía que viaja dentro del propio PDF, en lugar de depender de que tu ordenador la tenga instalada. Sin incrustar, el visor sustituye la fuente que falta por otra parecida, y entonces los textos se descolocan, cambian de anchura y el diseño se rompe. Con la fuente incrustada, el documento se ve idéntico en cualquier máquina.

Capa de texto

La capa de texto es la parte del PDF que contiene el texto real, codificado como caracteres, frente a lo que ves dibujado en pantalla. En un PDF nativo (generado desde un editor) el texto ya es texto: puedes seleccionarlo, copiarlo y buscar dentro de él. En un PDF escaneado, en cambio, cada página es una imagen y no hay capa de texto: aunque veas letras, el ordenador solo ve píxeles.

Marca de agua

Una marca de agua es un texto o una imagen que se superpone a las páginas de un PDF para indicar su origen, su estado o su propiedad: un "BORRADOR", un "CONFIDENCIAL", el logotipo de una empresa o el nombre de quien recibe una copia. Suele ir semitransparente para no estorbar la lectura del contenido que hay debajo.

Linearización (Fast Web View)

La linearización, conocida comercialmente como Fast Web View, es una forma de reorganizar internamente un PDF para que se pueda empezar a mostrar antes de haberlo descargado entero. En un PDF normal, la tabla de referencias que dice dónde está cada objeto vive al final del fichero, así que el visor necesita el archivo completo para orientarse. Un PDF linearizado coloca esa información al principio.

Seguridad

Cifrado AES

AES (Advanced Encryption Standard) es el algoritmo de cifrado simétrico que protege la mayoría de los PDF cifrados modernos. Es el mismo estándar que usan bancos y gobiernos, adoptado por el NIST en 2001, y se considera seguro frente a ataques prácticos cuando se usa con claves de 256 bits.

Firma electrónica

Una firma electrónica es, en términos legales, cualquier dato en formato electrónico que sirve para que una persona manifieste su consentimiento. El reglamento europeo eIDAS define tres niveles: la firma electrónica simple (SES), la avanzada (AES) y la cualificada (QES), de menor a mayor garantía jurídica.

Firma digital

Una firma digital es el mecanismo criptográfico que permite garantizar quién firmó un documento y que nadie lo ha modificado desde entonces. No es un dibujo de la rúbrica: es matemática. Usa criptografía de clave pública (RSA o curvas elípticas) para producir un valor que solo el titular de una clave privada puede generar.

Imágenes

Gráfico vectorial

Un gráfico vectorial describe las imágenes mediante fórmulas matemáticas: puntos, líneas, curvas y rellenos, en lugar de una cuadrícula de píxeles. La ventaja es directa: puedes ampliar un vector todo lo que quieras y los bordes siguen perfectamente nítidos, porque el dibujo se recalcula a la resolución del momento. No hay un tamaño "original" que se degrade.

Imagen ráster

Una imagen ráster (o de mapa de bits) está formada por una cuadrícula de píxeles, cada uno con su color. Las fotografías, las capturas de pantalla y los documentos escaneados son ráster. Su nivel de detalle está fijado en el momento de crearla: tiene un número concreto de píxeles de ancho y de alto, y ampliarla más allá de eso solo agranda los píxeles, que es lo que se ve como "pixelado" o borroso.

JPG / JPEG

JPG (o JPEG, por el Joint Photographic Experts Group que lo creó en 1992) es el formato de imagen ráster pensado para fotografías. Usa compresión con pérdida: descarta detalles que el ojo humano apenas percibe, sobre todo en variaciones suaves de color, a cambio de archivos mucho más ligeros. Por eso una foto en JPG pesa una fracción de lo que ocuparía sin comprimir.

PNG

PNG (Portable Network Graphics) es un formato de imagen ráster sin pérdida, creado en 1996 como alternativa libre al GIF. Sin pérdida significa que reconstruye la imagen píxel a píxel, exactamente como era: nada de artefactos. Eso lo hace ideal para capturas de pantalla, logotipos, gráficos con texto, líneas finas y zonas de color plano, donde el JPG se ensucia.

WebP

WebP es un formato de imagen que Google lanzó en 2010 para la web, capaz de ofrecer tanto compresión con pérdida como sin pérdida en un solo contenedor. Su objetivo es claro: archivos más pequeños que JPG y PNG a calidad equivalente, para que las páginas carguen antes. En fotografías suele rondar un 25-35 % menos de peso que un JPG comparable.

TIFF

TIFF (Tagged Image File Format) es un formato de imagen ráster muy flexible, habitual en el mundo profesional de la digitalización, la fotografía y las artes gráficas. Nació en los años ochenta y su rasgo distintivo es que un solo fichero TIFF puede contener varias páginas, lo que lo convirtió en el estándar de hecho para escanear documentos de muchas hojas antes del PDF.

SVG

SVG (Scalable Vector Graphics) es el formato vectorial estándar de la web, definido por el W3C en XML. Al ser vectorial, describe la imagen con formas matemáticas (rutas, círculos, polígonos, texto) en vez de píxeles, así que escala a cualquier tamaño sin perder nitidez. Es la elección natural para logotipos, iconos, gráficos y diagramas.

PPP / DPI

DPI (dots per inch, puntos por pulgada) y su equivalente PPP (píxeles por pulgada) miden la densidad de detalle de una imagen al imprimirse o mostrarse: cuántos puntos caben en cada pulgada. No es lo mismo que el tamaño en píxeles; el DPI relaciona esos píxeles con un tamaño físico real. Una misma imagen a más DPI se imprime más pequeña pero más fina.