Capa de texto

La capa de texto es la parte del PDF que contiene el texto real, codificado como caracteres, frente a lo que ves dibujado en pantalla. En un PDF nativo (generado desde un editor) el texto ya es texto: puedes seleccionarlo, copiarlo y buscar dentro de él. En un PDF escaneado, en cambio, cada página es una imagen y no hay capa de texto: aunque veas letras, el ordenador solo ve píxeles.

Ahí entra el OCR. Cuando reconoces un documento escaneado, el motor añade una capa de texto invisible colocada justo encima de la imagen, alineada con cada palabra. Visualmente el PDF no cambia, pero ahora se puede buscar, copiar y leer con lectores de pantalla. Esa capa es también lo que permite que un buscador indexe el documento.

Distinguir si un PDF tiene capa de texto o es solo imagen explica muchas situaciones cotidianas: por qué a veces puedes copiar un párrafo y otras no. Si lo necesitas, extraer ese texto en local te da el contenido sin enviar el archivo a ningún sitio.

Herramientas relacionadas

Más términos

OCR AcroForm XFA Metadata Compression Embedded fonts

← Ver todo el glosario