Skip to content
reader.me

Επίπεδο κειμένου

Το επίπεδο κειμένου είναι το μέρος ενός PDF που κρατά πραγματικούς, αναγνώσιμους από μηχανή χαρακτήρες — το περιεχόμενο που μπορείς να επιλέξεις με τον δείκτη, να αντιγράψεις, να αναζητήσεις και να ακούσεις να διαβάζεται φωναχτά. Ένα PDF φτιαγμένο από έναν επεξεργαστή κειμένου ή μια εφαρμογή σελιδοποίησης έχει αυτό το επίπεδο εγγενώς, με κάθε χαρακτήρα αντιστοιχισμένο σε μια θέση και μια γραμματοσειρά.

Η αντίθεση είναι το σαρωμένο PDF, που συχνά είναι απλώς μια εικόνα μιας σελίδας τυλιγμένη σε συσκευασία PDF. Μοιάζει με έγγραφο, αλλά δεν υπάρχει κείμενο από κάτω, οπότε μια αναζήτηση δεν βρίσκει τίποτα και η επιλογή δεν πιάνει τίποτα. Το OCR είναι αυτό που προσθέτει το επίπεδο που λείπει: αναγνωρίζει τους χαρακτήρες στην εικόνα και τους γράφει πίσω ως ένα αόρατο επίπεδο κειμένου ευθυγραμμισμένο με τα ορατά εικονοστοιχεία, αφήνοντας τη σελίδα να φαίνεται ίδια ενώ την κάνει πλήρως αναζητήσιμη.

Το να γνωρίζεις αν ένα αρχείο έχει αληθινό επίπεδο κειμένου εξηγεί πολλή από την καθημερινή απογοήτευση — γιατί το ένα PDF είναι αναζητήσιμο και το άλλο όχι. Όταν χρειάζεσαι αυτό το επίπεδο, το να το παράγεις τοπικά σημαίνει ότι οι λέξεις του εγγράφου εξάγονται στο δικό σου μηχάνημα αντί να περνούν σε μια απομακρυσμένη υπηρεσία που θα μπορούσε να τις διατηρήσει.