ΓΛΩΣΣΑΡΙ PDF
Γλωσσάρι PDF: όροι και μορφές
Τι σημαίνει πραγματικά κάθε όρος και μορφή PDF, σε απλή γλώσσα. Η ορολογία που συναντάς, εξηγημένη.
Μορφές
Το PDF (Portable Document Format) είναι μια μορφή αρχείου που καθηλώνει την ακριβή θέση κάθε χαρακτήρα, γραμμής και εικόνας σε μια σελίδα, ώστε ένα έγγραφο να φαίνεται πανομοιότυπο είτε το ανοίξεις σε κινητό, σε φορητό υπολογιστή είτε στο RIP ενός τυπογραφείου. Η Adobe το δημιούργησε το 1993 και παρέδωσε την προδιαγραφή στον ISO το 2008, όπου έγινε το ανοιχτό πρότυπο ISO 32000. Αυτή ακριβώς η ανοιχτότητα είναι ο λόγος που τόσα ανεξάρτητα εργαλεία μπορούν να διαβάζουν και να γράφουν PDF χωρίς να ζητούν άδεια από κανέναν.
PDF/AΤο PDF/A είναι το προφίλ ISO 19005 φτιαγμένο για μακροχρόνια αρχειοθέτηση. Ο στόχος είναι απλός: ένα έγγραφο που ανοίγει σε πενήντα χρόνια θα πρέπει να αποδίδεται ακριβώς όπως σήμερα, χωρίς να λείπουν γραμματοσειρές και χωρίς εξάρτηση από εξωτερικούς πόρους που μπορεί να έχουν εξαφανιστεί. Για να το εγγυηθεί αυτό, το πρότυπο απαγορεύει οτιδήποτε θα μπορούσε να χαλάσει με τον καιρό.
PDF/UAΤο PDF/UA (ISO 14289, όπου το UA σημαίνει Universal Accessibility, καθολική προσβασιμότητα) είναι το πρότυπο που κάνει ένα PDF χρησιμοποιήσιμο από ανθρώπους που βασίζονται σε υποστηρικτική τεχνολογία. Ένας αναγνώστης οθόνης δεν μπορεί να βγάλει νόημα από μελάνι πάνω σε μια σελίδα· χρειάζεται μια λογική δομή από κάτω. Το PDF/UA ορίζει ακριβώς πώς πρέπει να χτιστεί αυτή η δομή.
PDF/XΤο PDF/X (ISO 15930) είναι η οικογένεια προφίλ φτιαγμένη για την επαγγελματική εκτύπωση και τις γραφικές τέχνες. Όταν ένα αρχείο πηγαίνει σε ένα εμπορικό πιεστήριο, η ασάφεια κοστίζει ακριβά: μια γραμματοσειρά που λείπει, μια εικόνα RGB εκεί όπου αναμενόταν CMYK ή ένα μη ορισμένο πλαίσιο κοπής μπορεί να καταστρέψει ολόκληρο το τιράζ. Το PDF/X εξαλείφει αυτή την ασάφεια αναγκάζοντας κάθε κρίσιμη για την εκτύπωση λεπτομέρεια να είναι ρητή.
Έννοιες
Το OCR (Optical Character Recognition, οπτική αναγνώριση χαρακτήρων) μετατρέπει την εικόνα του κειμένου σε πραγματικούς, επιλέξιμους χαρακτήρες. Μια σαρωμένη σελίδα ή μια φωτογραφία ενός εγγράφου είναι, για έναν υπολογιστή, απλώς ένα πλέγμα από εικονοστοιχεία: δεν υπάρχει κείμενο μέσα της, μόνο μια εικόνα που τυχαίνει να μοιάζει με λέξεις. Το OCR αναλύει τα σχήματα των γραμμάτων και ανακατασκευάζει την υποκείμενη ακολουθία χαρακτήρων.
AcroFormΈνα AcroForm είναι η εγγενής, ενσωματωμένη τεχνολογία φορμών του PDF — το είδος της διαδραστικής φόρμας που αποτελεί μέρος της μορφής από τα τέλη της δεκαετίας του 1990. Τα συμπληρώσιμα πεδία που βλέπεις σε μια φορολογική δήλωση ή σε μια αίτηση — πλαίσια κειμένου, πλαίσια ελέγχου, κουμπιά επιλογής, αναπτυσσόμενες λίστες και πεδία υπογραφής — είναι αντικείμενα AcroForm ορισμένα απευθείας στη δομή αντικειμένων του PDF.
XFAΤο XFA (XML Forms Architecture) είναι η εναλλακτική τεχνολογία φορμών της Adobe, στην οποία η φόρμα δεν ορίζεται από εγγενή αντικείμενα PDF αλλά από ένα φορτίο XML ενσωματωμένο μέσα στο περίβλημα του PDF. Σχεδιάστηκε για σύνθετες, δυναμικές φόρμες: διατάξεις που μεγαλώνουν καθώς προσθέτεις γραμμές, πεδία που εμφανίζονται ή εξαφανίζονται ανάλογα με προηγούμενες απαντήσεις και στενή σύνδεση με σχήματα δεδομένων του backend.
ΜεταδεδομέναΤα μεταδεδομένα είναι τα δεδομένα σχετικά με τα δεδομένα σου — οι πληροφορίες που κουβαλά ένα PDF πέρα από το ορατό περιεχόμενο της σελίδας. Υπάρχουν δύο κύριες αποθήκες: το παλαιό Document Information Dictionary (τίτλος, συντάκτης, θέμα, λέξεις-κλειδιά, το λογισμικό που το δημιούργησε και οι ημερομηνίες δημιουργίας και τροποποίησης) και το XMP, ένα μπλοκ με βάση το XML που κρατά τα ίδια πεδία συν πλουσιότερες, επεκτάσιμες ιδιότητες.
ΣυμπίεσηΗ συμπίεση είναι αυτό που κρατά διαχειρίσιμο το μέγεθος των αρχείων PDF, και ένα μόνο έγγραφο συνήθως αναμειγνύει αρκετές μεθόδους επειδή αναμειγνύει αρκετά είδη περιεχομένου. Το κείμενο και οι εντολές διανυσματικής σχεδίασης συμπιέζονται χωρίς απώλειες με Flate (τον ίδιο αλγόριθμο Deflate που υπάρχει πίσω από το ZIP), οπότε κάθε χαρακτήρας επιστρέφει ακριβώς όπως μπήκε.
Ενσωματωμένες γραμματοσειρέςΟι ενσωματωμένες γραμματοσειρές είναι τυπογραφικά στοιχεία πακεταρισμένα μέσα στο ίδιο το PDF αντί να δανείζονται από τον υπολογιστή που το ανοίγει. Αυτό είναι το χαρακτηριστικό που κάνει το PDF πραγματικά φορητό: αν η γραμματοσειρά ταξιδεύει μαζί με το έγγραφο, το κείμενο αποδίδεται πανομοιότυπα παντού, ακόμη και σε ένα μηχάνημα που δεν είχε ποτέ εγκατεστημένο αυτό το τυπογραφικό στοιχείο.
Επίπεδο κειμένουΤο επίπεδο κειμένου είναι το μέρος ενός PDF που κρατά πραγματικούς, αναγνώσιμους από μηχανή χαρακτήρες — το περιεχόμενο που μπορείς να επιλέξεις με τον δείκτη, να αντιγράψεις, να αναζητήσεις και να ακούσεις να διαβάζεται φωναχτά. Ένα PDF φτιαγμένο από έναν επεξεργαστή κειμένου ή μια εφαρμογή σελιδοποίησης έχει αυτό το επίπεδο εγγενώς, με κάθε χαρακτήρα αντιστοιχισμένο σε μια θέση και μια γραμματοσειρά.
ΥδατογράφημαΈνα υδατογράφημα είναι κείμενο ή εικόνα τοποθετημένη πάνω από τις σελίδες ενός PDF για να σημανθεί η κατάσταση ή η ιδιοκτησία — ένα αχνό «DRAFT» ή «CONFIDENTIAL» διαγώνια στη σελίδα, ένα εταιρικό λογότυπο ή μια γραμμή πνευματικών δικαιωμάτων. Σηματοδοτεί πρόθεση χωρίς να κρύβει το υποκείμενο περιεχόμενο, συνήθως με το να είναι ημιδιαφανές ή να κάθεται πίσω από το κύριο κείμενο.
ΓραμμικοποίησηΗ γραμμικοποίηση, που η Adobe προωθεί ως Fast Web View, είναι ένας τρόπος αναδιοργάνωσης της εσωτερικής σειράς των bytes ενός PDF ώστε να μπορεί να προβληθεί προτού φτάσει ολόκληρο το αρχείο. Σε ένα κανονικό PDF, ο πίνακας διασταυρούμενων αναφορών που ευρετηριάζει κάθε αντικείμενο βρίσκεται στο τέλος, οπότε ένας προβολέας τεχνικά χρειάζεται το πλήρες αρχείο για να ξέρει πού βρίσκονται τα πράγματα.
Ασφάλεια
Το AES (Advanced Encryption Standard) είναι ο κρυπταλγόριθμος μπλοκ που ασφαλίζει ένα PDF προστατευμένο με κωδικό. Όταν κλειδώνεις ένα έγγραφο, οι ροές περιεχομένου και οι συμβολοσειρές των σελίδων κρυπτογραφούνται με AES, και ο μόνος δρόμος πίσω στα αναγνώσιμα bytes είναι να δώσεις τον σωστό κωδικό και να παραγάγεις το σωστό κλειδί. Χωρίς αυτό, το αρχείο στον δίσκο είναι απλώς κρυπτοκείμενο.
Ηλεκτρονική υπογραφήΜια ηλεκτρονική υπογραφή είναι, με την ευρύτερη νομική έννοια, οποιαδήποτε δεδομένα συνημμένα σε ένα έγγραφο που υποδεικνύουν την πρόθεση του υπογράφοντος να συμφωνήσει — από ένα πληκτρολογημένο όνομα ή μια ζωγραφισμένη μουτζούρα έως μια κρυπτογραφικά υποστηριζόμενη σφραγίδα. Ο κανονισμός eIDAS της ΕΕ τις κατατάσσει σε επίπεδα, και η διάκριση έχει σημασία όταν μια υπογραφή πρέπει να σταθεί αργότερα.
Ψηφιακή υπογραφήΜια ψηφιακή υπογραφή είναι ο κρυπτογραφικός μηχανισμός που αποδεικνύει ποιος υπέγραψε ένα PDF και ότι κανείς δεν το έχει μεταβάλει από τότε. Είναι ο τεχνικός κινητήρας στον οποίο βασίζονται οι ισχυρότερες ηλεκτρονικές υπογραφές, και χτίζεται από κρυπτογραφία δημόσιου κλειδιού και όχι από κάποια εικόνα μιας μολυβιάς.
Εικόνες
Τα διανυσματικά γραφικά περιγράφουν μια εικόνα ως μαθηματικά — σημεία, γραμμές, καμπύλες και γεμίσματα — και όχι ως ένα σταθερό πλέγμα έγχρωμων κουκκίδων. Ένας κύκλος αποθηκεύεται ως ένα κέντρο, μια ακτίνα και ένα χρώμα, οπότε ο υπολογιστής τον επανασχεδιάζει σε όποιο μέγεθος ζητηθεί. Η συνέπεια είναι η καθοριστική ιδιότητα της διανυσματικής τέχνης: κλιμακώνεται σε οποιοδήποτε μέγεθος χωρίς απώλεια ευκρίνειας.
Ψηφιδωτή εικόναΜια ψηφιδωτή εικόνα είναι ένα ορθογώνιο πλέγμα από εικονοστοιχεία, καθένα από τα οποία κρατά μια τιμή χρώματος — το μοντέλο πίσω από κάθε φωτογραφία και σάρωση. Σε αντίθεση με ένα διάνυσμα, μια ψηφιδωτή εικόνα έχει σταθερή εγγενή ανάλυση: αποθηκεύει ακριβώς τόσες κουκκίδες κατά πλάτος και κατά ύψος, και όλη της η λεπτομέρεια είναι ψημένη μέσα σε αυτό το πλέγμα.
JPGΤο JPG (γράφεται και JPEG, από την Joint Photographic Experts Group που το όρισε) είναι η απωλεστική ψηφιδωτή μορφή φτιαγμένη για φωτογραφίες. Λειτουργεί μετατρέποντας την εικόνα σε συχνοτικές συνιστώσες και απορρίπτοντας τη λεπτή λεπτομέρεια που το ανθρώπινο μάτι είναι λιγότερο πιθανό να αντιληφθεί, κι έτσι στριμώχνει μια έγχρωμη φωτογραφία σε ένα μικρό αρχείο.
PNGΤο PNG (Portable Network Graphics) είναι η μη απωλεστική ψηφιδωτή μορφή για γραφικά με κοφτές ακμές και επίπεδο χρώμα — στιγμιότυπα οθόνης, λογότυπα, εικονίδια, διαγράμματα και οτιδήποτε περιέχει κείμενο. Μη απωλεστική σημαίνει ότι αποθηκεύει την εικόνα ακριβώς: αποθήκευσέ την ξανά όσες φορές θες και ούτε ένα εικονοστοιχείο δεν αλλάζει — το αντίθετο της γενεακής φθοράς του JPEG.
WebPΤο WebP είναι μια μορφή εικόνας από τη Google που στοχεύει να αντικαταστήσει τόσο το JPEG όσο και το PNG με έναν ενιαίο περιέκτη. Το κόλπο του είναι ότι υποστηρίζει δύο λειτουργίες: απωλεστική συμπίεση για φωτογραφίες, όπως το JPEG, και μη απωλεστική συμπίεση για γραφικά, όπως το PNG, παράγοντας τυπικά μικρότερα αρχεία από οποιοδήποτε από τα δύο σε συγκρίσιμη ποιότητα.
TIFFΤο TIFF (Tagged Image File Format) είναι η βαριά ψηφιδωτή μορφή που χρησιμοποιείται στην αρχειοθέτηση, τη σάρωση και την επαγγελματική απεικόνιση. Το όνομά του προέρχεται από τη δομή του: ένα ευέλικτο σύνολο ετικετών που περιγράφουν την εικόνα, το οποίο επιτρέπει σε ένα μόνο TIFF να κρατά ασυμπίεστα ή μη απωλεστικά συμπιεσμένα δεδομένα, υψηλά βάθη bit, ενσωματωμένα προφίλ χρώματος και πληθώρα τεχνικών μεταδεδομένων.
SVGΤο SVG (Scalable Vector Graphics) είναι μια ανοιχτή, βασισμένη στο XML διανυσματική μορφή — μια εικόνα γραμμένη ως αναγνώσιμο κείμενο που περιγράφει σχήματα, διαδρομές, χρώματα και κείμενο. Επειδή είναι διανυσματική, κλιμακώνεται σε οποιοδήποτε μέγεθος με τέλεια τραγανές ακμές, και επειδή είναι XML, μπορεί να στιλιστεί με CSS, να κινηθεί, ακόμη και να αναζητηθεί ή να επεξεργαστεί σε έναν απλό επεξεργαστή κειμένου.
DPIΤο DPI (dots per inch, κουκκίδες ανά ίντσα) μετρά την ανάλυση — πόσες κουκκίδες λεπτομέρειας στοιβάζονται σε κάθε ίντσα μιας εικόνας ή εκτύπωσης. Όσο μεγαλύτερος ο αριθμός, τόσο πιο λεπτή η λεπτομέρεια και τόσο μεγαλύτερο το αρχείο. Είναι η μοναδική ρύθμιση που συχνότερα αποφασίζει αν μια σάρωση ή μια εξαγωγή φαίνεται τραγανή ή απογοητευτική.