Skip to content
reader.me

Warstwa tekstowa

Warstwa tekstowa to część PDF, która przechowuje prawdziwe, czytelne maszynowo znaki — treść, którą możesz zaznaczyć kursorem, skopiować, przeszukać i odsłuchać. PDF zbudowany w edytorze tekstu lub programie do składu ma tę warstwę natywnie, z każdym znakiem przypisanym do pozycji i czcionki.

Przeciwieństwem jest zeskanowany PDF, który często jest tylko obrazem strony opakowanym w PDF. Wygląda jak dokument, ale pod spodem nie ma tekstu, więc wyszukiwanie niczego nie znajduje, a zaznaczenie niczego nie chwyta. OCR jest tym, co dodaje brakującą warstwę: rozpoznaje znaki na obrazie i zapisuje je z powrotem jako niewidoczną warstwę tekstu dopasowaną do widocznych pikseli, pozostawiając stronę bez zmian, a jednocześnie czyniąc ją w pełni przeszukiwalną.

Wiedza o tym, czy plik ma prawdziwą warstwę tekstową, wyjaśnia wiele codziennych frustracji — dlaczego jeden PDF da się przeszukać, a inny nie. Gdy potrzebujesz tej warstwy, wygenerowanie jej lokalnie oznacza, że słowa dokumentu są wyodrębniane na Twoim własnym komputerze, zamiast przekazywane zdalnej usłudze, która mogłaby je zachować.