Текстовый слой

Текстовый слой — это часть PDF, содержащая настоящие, машиночитаемые символы: содержимое, которое можно выделить курсором, скопировать, найти и озвучить вслух. PDF, собранный из текстового редактора или программы вёрстки, имеет этот слой изначально, и каждый символ привязан к позиции и шрифту.

Противоположность — отсканированный PDF, который часто всего лишь картинка страницы, завёрнутая в PDF-упаковку. Он выглядит как документ, но под ним нет текста, поэтому поиск ничего не находит, а выделение ничего не захватывает. OCR — это то, что добавляет недостающий слой: оно распознаёт символы на изображении и записывает их обратно как невидимый текстовый слой, выровненный по видимым пикселям, оставляя страницу прежней на вид и при этом полностью доступной для поиска.

Знание того, есть ли у файла настоящий текстовый слой, объясняет немало повседневных огорчений — почему по одному PDF можно искать, а по другому нет. Когда вам нужен такой слой, создание его локально означает, что слова документа извлекаются на вашей собственной машине, а не передаются удалённому сервису, который мог бы их сохранить.

Связанные инструменты

Больше терминов

OCR AcroForm XFA Metadata Compression Embedded fonts

← Назад к глоссарию