Skip to content
reader.me

Текстовий шар

Текстовий шар — це частина PDF, що містить справжні, машиночитні символи: вміст, який можна виділити курсором, скопіювати, знайти й озвучити вголос. PDF, побудований із текстового процесора чи застосунку для верстки, має цей шар від народження, де кожен символ зіставлений із положенням і шрифтом.

Контраст — це сканований PDF, який часто є просто картинкою сторінки, загорнутою в PDF-упаковку. Він виглядає як документ, але під ним немає тексту, тож пошук нічого не знаходить, а виділення нічого не захоплює. OCR — це те, що додає відсутній шар: воно розпізнає символи на зображенні й записує їх назад як невидимий текстовий шар, вирівняний по видимих пікселях, лишаючи вигляд сторінки тим самим, але роблячи її повністю придатною для пошуку.

Розуміння того, чи має файл справжній текстовий шар, пояснює багато повсякденного роздратування — чому в одному PDF можна шукати, а в іншому ні. Коли вам потрібен цей шар, його створення локально означає, що слова документа витягуються на вашій власній машині, а не передаються на віддалений сервіс, який міг би їх зберегти.