Camada de texto

A camada de texto é a parte de um PDF que contém carateres reais e legíveis por máquina, o conteúdo que consegues selecionar com o cursor, copiar, pesquisar e mandar ler em voz alta. Um PDF feito a partir de um processador de texto ou de uma aplicação de paginação tem esta camada de forma nativa, com cada caráter mapeado para uma posição e um tipo de letra.

O contraste é o PDF digitalizado, que muitas vezes é apenas a imagem de uma página embrulhada em embalagem PDF. Parece um documento, mas não há texto por baixo, por isso uma pesquisa não encontra nada e a seleção não agarra nada. O OCR é o que acrescenta a camada em falta: reconhece os carateres na imagem e escreve-os de volta como uma camada de texto invisível alinhada com os píxeis visíveis, deixando a página com o mesmo aspeto mas tornando-a totalmente pesquisável.

Saber se um ficheiro tem uma verdadeira camada de texto explica muita da frustração do dia a dia — porque é que um PDF é pesquisável e outro não. Quando precisas dessa camada, gerá-la localmente significa que as palavras do documento são extraídas na tua própria máquina em vez de serem passadas a um serviço remoto que as poderia reter.

Ferramentas relacionadas

Mais termos

OCR AcroForm XFA Metadata Compression Embedded fonts

← Voltar ao glossário