Livello di testo
Il livello di testo è la parte di un PDF che contiene caratteri reali e leggibili dalla macchina, il contenuto che puoi selezionare col cursore, copiare, cercare e far leggere ad alta voce. Un PDF creato da un elaboratore di testi o da un programma di impaginazione ha questo livello in modo nativo, con ogni carattere mappato a una posizione e a un font.
Il contrario è il PDF scansionato, che spesso è solo l'immagine di una pagina avvolta in un involucro PDF. Sembra un documento, ma sotto non c'è testo, così una ricerca non trova nulla e la selezione non afferra nulla. L'OCR è ciò che aggiunge il livello mancante: riconosce i caratteri nell'immagine e li riscrive come livello di testo invisibile allineato ai pixel visibili, lasciando la pagina con lo stesso aspetto ma rendendola pienamente ricercabile.
Sapere se un file ha un vero livello di testo spiega molte frustrazioni quotidiane, il perché un PDF è ricercabile e un altro no. Quando ti serve quel livello, generarlo in locale significa che le parole del documento vengono estratte sulla tua macchina anziché passate a un servizio remoto che potrebbe conservarle.
Strumenti correlati