Warstwa tekstowa

Warstwa tekstowa to część PDF, która przechowuje prawdziwe, czytelne maszynowo znaki — treść, którą możesz zaznaczyć kursorem, skopiować, przeszukać i odsłuchać. PDF zbudowany w edytorze tekstu lub programie do składu ma tę warstwę natywnie, z każdym znakiem przypisanym do pozycji i czcionki.

Przeciwieństwem jest zeskanowany PDF, który często jest tylko obrazem strony opakowanym w PDF. Wygląda jak dokument, ale pod spodem nie ma tekstu, więc wyszukiwanie niczego nie znajduje, a zaznaczenie niczego nie chwyta. OCR jest tym, co dodaje brakującą warstwę: rozpoznaje znaki na obrazie i zapisuje je z powrotem jako niewidoczną warstwę tekstu dopasowaną do widocznych pikseli, pozostawiając stronę bez zmian, a jednocześnie czyniąc ją w pełni przeszukiwalną.

Wiedza o tym, czy plik ma prawdziwą warstwę tekstową, wyjaśnia wiele codziennych frustracji — dlaczego jeden PDF da się przeszukać, a inny nie. Gdy potrzebujesz tej warstwy, wygenerowanie jej lokalnie oznacza, że słowa dokumentu są wyodrębniane na Twoim własnym komputerze, zamiast przekazywane zdalnej usłudze, która mogłaby je zachować.

Powiązane narzędzia

Więcej terminów

OCR AcroForm XFA Metadata Compression Embedded fonts

← Powrót do słownika