GLOSSÁRIO PDF

Glossário PDF: termos e formatos

O que cada termo e formato PDF significa de facto, em linguagem simples. O jargão com que te cruzas, explicado.

Formatos

O PDF (Portable Document Format) é um formato de ficheiro que fixa a posição exata de cada caráter, linha e imagem numa página, para que um documento se veja igual quer o abras num telemóvel, num portátil ou no RIP de uma gráfica. A Adobe criou-o em 1993 e entregou a especificação à ISO em 2008, onde se tornou o padrão aberto ISO 32000. É por causa dessa abertura que tantas ferramentas independentes conseguem ler e escrever PDF sem pedir autorização a ninguém.

PDF/A

O PDF/A é o perfil ISO 19005 concebido para o arquivo a longo prazo. O objetivo é simples: um documento aberto daqui a cinquenta anos deve aparecer exatamente como aparece hoje, sem tipos de letra em falta e sem depender de recursos externos que possam ter desaparecido. Para garantir isso, o padrão proíbe tudo o que se possa quebrar com o tempo.

PDF/UA

O PDF/UA (ISO 14289, onde UA significa Universal Accessibility) é o padrão que torna um PDF utilizável por pessoas que dependem de tecnologia de apoio. Um leitor de ecrã não consegue interpretar tinta numa página; precisa de uma estrutura lógica por baixo. O PDF/UA define exatamente como essa estrutura tem de ser construída.

PDF/X

O PDF/X (ISO 15930) é a família de perfis feita para a impressão profissional e as artes gráficas. Quando um ficheiro vai para uma gráfica comercial, a ambiguidade sai cara: um tipo de letra em falta, uma imagem em RGB onde se esperava CMYK, ou uma caixa de corte indefinida podem arruinar uma tiragem inteira. O PDF/X elimina essa ambiguidade ao obrigar a que cada detalhe crítico para a impressão seja explícito.

Conceitos

OCR

O OCR (Optical Character Recognition) transforma a imagem do texto em carateres reais e selecionáveis. Uma página digitalizada ou a fotografia de um documento são, para um computador, apenas uma grelha de píxeis: não há texto nelas, só uma imagem que por acaso se parece com palavras. O OCR analisa as formas das letras e reconstrói a cadeia de carateres subjacente.

AcroForm

Um AcroForm é a tecnologia de formulários nativa e integrada do PDF, o tipo de formulário interativo que faz parte do formato desde o final dos anos 1990. Os campos preenchíveis que vês numa declaração de impostos ou num formulário de candidatura — caixas de texto, caixas de verificação, botões de opção, listas pendentes e campos de assinatura — são objetos AcroForm definidos diretamente na estrutura de objetos do PDF.

XFA

O XFA (XML Forms Architecture) é a tecnologia de formulários alternativa da Adobe, na qual o formulário é definido não por objetos nativos do PDF, mas por uma carga XML incorporada dentro do invólucro PDF. Foi concebido para formulários complexos e dinâmicos: disposições que crescem à medida que adicionas linhas, campos que aparecem ou desaparecem consoante respostas anteriores e uma ligação estreita a esquemas de dados de retaguarda.

Metadados

Os metadados são os dados sobre os teus dados, a informação que um PDF transporta para além do conteúdo visível da página. Há dois repositórios principais: o legado Document Information Dictionary (título, autor, assunto, palavras-chave, o software que o criou e as datas de criação e modificação) e o XMP, um bloco baseado em XML que guarda os mesmos campos mais propriedades mais ricas e extensíveis.

Compressão

A compressão é o que mantém o tamanho dos ficheiros PDF dentro do razoável, e um único documento costuma misturar vários métodos porque mistura vários tipos de conteúdo. O texto e as instruções de desenho vetorial comprimem-se sem perdas com Flate (o mesmo algoritmo Deflate por detrás do ZIP), por isso cada caráter volta exatamente como entrou.

Tipos de letra incorporados

Os tipos de letra incorporados são fontes empacotadas dentro do próprio PDF em vez de emprestadas pelo computador que o abre. É esta a funcionalidade que torna o PDF genuinamente portátil: se o tipo de letra viaja com o documento, o texto aparece de forma idêntica em todo o lado, mesmo numa máquina que nunca teve essa fonte instalada.

Camada de texto

A camada de texto é a parte de um PDF que contém carateres reais e legíveis por máquina, o conteúdo que consegues selecionar com o cursor, copiar, pesquisar e mandar ler em voz alta. Um PDF feito a partir de um processador de texto ou de uma aplicação de paginação tem esta camada de forma nativa, com cada caráter mapeado para uma posição e um tipo de letra.

Marca d'água

Uma marca d'água é texto ou uma imagem sobreposta às páginas de um PDF para assinalar o estado ou a propriedade — um ténue "RASCUNHO" ou "CONFIDENCIAL" na diagonal sobre a página, o logótipo de uma empresa, ou uma linha de direitos de autor. Sinaliza intenção sem obscurecer o conteúdo subjacente, normalmente por ser semitransparente ou por ficar atrás do texto principal.

Linearização

A linearização, comercializada pela Adobe como Fast Web View, é uma forma de reorganizar a ordem interna dos bytes de um PDF para que possa ser apresentado antes de o ficheiro inteiro ter chegado. Num PDF normal, a tabela de referências cruzadas que indexa cada objeto fica mesmo no fim, por isso um visualizador precisa tecnicamente do ficheiro completo para saber onde estão as coisas.

Segurança

Cifragem AES

O AES (Advanced Encryption Standard) é a cifra de bloco que protege um PDF com palavra-passe. Quando bloqueias um documento, os fluxos de conteúdo das páginas e as cadeias de texto são cifrados com AES, e a única forma de voltar aos bytes legíveis é fornecer a palavra-passe certa e derivar a chave correta. Sem ela, o ficheiro no disco é apenas texto cifrado.

Assinatura eletrónica

Uma assinatura eletrónica é, no sentido jurídico mais amplo, qualquer dado anexado a um documento que indique a intenção do signatário de concordar, desde um nome escrito ou um rabisco desenhado até um selo com suporte criptográfico. O regulamento eIDAS da UE organiza-as em níveis, e a distinção importa quando uma assinatura tem de se aguentar mais tarde.

Assinatura digital

Uma assinatura digital é o mecanismo criptográfico que prova quem assinou um PDF e que ninguém o alterou desde então. É o motor técnico em que assentam as assinaturas eletrónicas mais fortes, e é construído a partir de criptografia de chave pública e não de qualquer imagem de um traço de caneta.

Imagens

Vetorial

Os gráficos vetoriais descrevem uma imagem como matemática — pontos, linhas, curvas e preenchimentos — em vez de uma grelha fixa de pontos coloridos. Um círculo é guardado como um centro, um raio e uma cor, por isso o computador redesenha-o em qualquer tamanho que lhe peças. A consequência é a propriedade que define a arte vetorial: escala para qualquer tamanho sem perda de nitidez.

Raster

Uma imagem raster é uma grelha retangular de píxeis, cada um a conter um valor de cor, o modelo por detrás de cada fotografia e digitalização. Ao contrário de um vetor, um raster tem uma resolução nativa fixa: guarda exatamente um certo número de pontos na horizontal e na vertical, e todo o seu detalhe está cozido nessa grelha.

JPG

O JPG (também escrito JPEG, em referência ao Joint Photographic Experts Group que o definiu) é o formato raster com perdas feito para fotografias. Funciona ao transformar a imagem em componentes de frequência e ao descartar o detalhe fino que o olho humano tem menos probabilidade de notar, e é assim que espreme uma foto a cores num ficheiro pequeno.

PNG

O PNG (Portable Network Graphics) é o formato raster sem perdas para gráficos com arestas vivas e cor plana — capturas de ecrã, logótipos, ícones, diagramas e tudo o que contenha texto. Sem perdas significa que guarda a imagem exatamente: volta a guardá-la as vezes que quiseres e nem um único píxel muda, o oposto da degradação geracional do JPEG.

WebP

O WebP é um formato de imagem da Google que pretende substituir tanto o JPEG como o PNG por um só contentor. O seu truque é suportar dois modos: compressão com perdas para fotografias, como o JPEG, e compressão sem perdas para gráficos, como o PNG, produzindo tipicamente ficheiros mais pequenos do que qualquer um deles para qualidade comparável.

TIFF

O TIFF (Tagged Image File Format) é o formato raster pesado usado em arquivo, digitalização e imagem profissional. O nome vem da sua estrutura: um conjunto flexível de etiquetas que descrevem a imagem, o que permite a um único TIFF conter dados sem compressão ou comprimidos sem perdas, grandes profundidades de bits, perfis de cor incorporados e uma boa dose de metadados técnicos.

SVG

O SVG (Scalable Vector Graphics) é um formato vetorial aberto e baseado em XML, uma imagem escrita como texto legível que descreve formas, caminhos, cores e texto. Como é vetorial, escala para qualquer tamanho com arestas perfeitamente nítidas e, como é XML, pode ser estilizado com CSS, animado e até pesquisado ou editado num simples editor de texto.

DPI

O DPI (dots per inch, pontos por polegada) mede a resolução, quantos pontos de detalhe estão concentrados em cada polegada de uma imagem ou impressão. Quanto maior o número, mais fino o detalhe e maior o ficheiro. É a única definição que mais vezes decide se uma digitalização ou uma exportação fica nítida ou dececionante.