Textlager

Textlagret är den del av en PDF som rymmer riktiga, maskinläsbara tecken, det innehåll du kan markera med pekaren, kopiera, söka i och få uppläst. En PDF skapad i ett ordbehandlings- eller layoutprogram har det här lagret från början, med varje tecken kopplat till en position och ett teckensnitt.

Kontrasten är den inskannade PDF:en, som ofta bara är en bild av en sida insvept i PDF-förpackning. Den ser ut som ett dokument, men det finns ingen text under, så en sökning hittar inget och en markering fångar inget. OCR är det som lägger till det saknade lagret: det känner igen tecknen i bilden och skriver tillbaka dem som ett osynligt textlager som ligger i linje med de synliga pixlarna, vilket lämnar sidan oförändrad samtidigt som den blir fullt sökbar.

Att veta om en fil har ett äkta textlager förklarar mycket av vardagsfrustrationen, varför en PDF går att söka i och en annan inte. När du behöver det lagret betyder lokal generering att dokumentets ord extraheras på din egen maskin i stället för att skickas till en fjärrtjänst som skulle kunna behålla dem.

Relaterade verktyg

Fler termer

OCR AcroForm XFA Metadata Compression Embedded fonts

← Tillbaka till ordlistan