PDF-GLOSSAR

PDF-Glossar: Begriffe und Formate

Was jeder PDF-Begriff und jedes Format wirklich bedeutet, verständlich erklärt. Der Fachjargon, dem du begegnest, einfach aufgeschlüsselt.

Formate

PDF

PDF (Portable Document Format) ist ein Dateiformat, das die exakte Position jedes Zeichens, jeder Linie und jedes Bildes auf einer Seite festlegt, damit ein Dokument identisch aussieht – egal, ob du es auf dem Handy, dem Laptop oder im RIP einer Druckerei öffnest. Adobe entwickelte es 1993 und übergab die Spezifikation 2008 an die ISO, wo daraus der offene Standard ISO 32000 wurde. Genau diese Offenheit ist der Grund, warum so viele unabhängige Werkzeuge PDF lesen und schreiben können, ohne irgendjemanden um Erlaubnis zu fragen.

PDF/A

PDF/A ist das ISO-19005-Profil für die Langzeitarchivierung. Das Ziel ist einfach: Ein Dokument, das in fünfzig Jahren geöffnet wird, soll genauso aussehen wie heute – ohne fehlende Schriften und ohne Abhängigkeit von externen Ressourcen, die längst verschwunden sein könnten. Um das zu garantieren, verbietet der Standard alles, was mit der Zeit kaputtgehen könnte.

PDF/UA

PDF/UA (ISO 14289, wobei UA für Universal Accessibility, also universelle Barrierefreiheit, steht) ist der Standard, der ein PDF für Menschen nutzbar macht, die auf assistive Technik angewiesen sind. Ein Screenreader kann mit Tinte auf einer Seite nichts anfangen; er braucht eine logische Struktur darunter. PDF/UA legt genau fest, wie diese Struktur aufgebaut sein muss.

PDF/X

PDF/X (ISO 15930) ist die Profilfamilie für den professionellen Druck und die grafische Industrie. Wenn eine Datei in eine Druckerei geht, ist Mehrdeutigkeit teuer: eine fehlende Schrift, ein RGB-Bild, wo CMYK erwartet wurde, oder eine undefinierte Beschnittbox können eine ganze Auflage ruinieren. PDF/X beseitigt diese Mehrdeutigkeit, indem es jedes druckkritische Detail zwingend explizit macht.

Konzepte

OCR

OCR (Optical Character Recognition, optische Zeichenerkennung) verwandelt das Bild von Text in echte, markierbare Zeichen. Eine gescannte Seite oder das Foto eines Dokuments ist für einen Computer nur ein Raster aus Pixeln: Darin steckt kein Text, nur ein Bild, das zufällig wie Wörter aussieht. OCR analysiert die Formen der Buchstaben und rekonstruiert die zugrunde liegende Zeichenkette.

AcroForm

Ein AcroForm ist PDFs hauseigene, eingebaute Formulartechnik – jene Art interaktiver Formulare, die seit Ende der 1990er Jahre Teil des Formats ist. Die ausfüllbaren Felder, die du in einer Steuererklärung oder einem Antragsformular siehst – Textfelder, Kontrollkästchen, Optionsfelder, Auswahllisten und Signaturfelder –, sind AcroForm-Objekte, die direkt in der Objektstruktur des PDFs definiert sind.

XFA

XFA (XML Forms Architecture) ist Adobes alternative Formulartechnik, bei der das Formular nicht durch native PDF-Objekte definiert wird, sondern durch eine in die PDF-Hülle eingebettete XML-Nutzlast. Sie wurde für komplexe, dynamische Formulare entworfen: Layouts, die mitwachsen, wenn man Zeilen hinzufügt, Felder, die je nach vorherigen Antworten erscheinen oder verschwinden, und eine enge Bindung an Datenschemata im Backend.

Metadaten

Metadaten sind die Daten über deine Daten – die Informationen, die ein PDF über den sichtbaren Seiteninhalt hinaus mit sich trägt. Es gibt zwei Hauptspeicher: das klassische Document Information Dictionary (Titel, Autor, Thema, Schlüsselwörter, die erstellende Software sowie Erstell- und Änderungsdatum) und XMP, einen XML-basierten Block, der dieselben Felder plus reichhaltigere, erweiterbare Eigenschaften enthält.

Komprimierung

Komprimierung ist es, die PDF-Dateigrößen handhabbar hält, und ein einzelnes Dokument mischt meist mehrere Verfahren, weil es mehrere Arten von Inhalt mischt. Text und Vektorzeichenanweisungen werden verlustfrei mit Flate komprimiert (demselben Deflate-Algorithmus, der hinter ZIP steckt), sodass jedes Zeichen genau so zurückkommt, wie es hineinging.

Eingebettete Schriften

Eingebettete Schriften sind Schriftarten, die im PDF selbst verpackt sind, statt von dem Computer geborgt zu werden, der es öffnet. Das ist die Eigenschaft, die PDF wirklich portabel macht: Reist die Schrift mit dem Dokument, wird der Text überall identisch wiedergegeben, sogar auf einem Rechner, auf dem diese Schriftart nie installiert war.

Textebene

Die Textebene ist der Teil eines PDFs, der echte, maschinenlesbare Zeichen enthält – der Inhalt, den du mit dem Cursor markieren, kopieren, durchsuchen und vorlesen lassen kannst. Ein aus einer Textverarbeitung oder einem Layoutprogramm erstelltes PDF hat diese Ebene von Haus aus, mit jedem Zeichen einer Position und einer Schrift zugeordnet.

Wasserzeichen

Ein Wasserzeichen ist Text oder ein Bild, das über die Seiten eines PDFs gelegt wird, um Status oder Eigentum zu kennzeichnen – ein blasses "ENTWURF" oder "VERTRAULICH" diagonal über der Seite, ein Firmenlogo oder eine Copyright-Zeile. Es signalisiert eine Absicht, ohne den darunterliegenden Inhalt zu verdecken, meist indem es halbtransparent ist oder hinter dem eigentlichen Text sitzt.

Linearisierung (Fast Web View)

Linearisierung, von Adobe als Fast Web View vermarktet, ist eine Methode, die interne Byte-Reihenfolge eines PDFs umzuorganisieren, damit es angezeigt werden kann, bevor die ganze Datei angekommen ist. In einem normalen PDF sitzt die Querverweistabelle, die jedes Objekt indexiert, ganz am Ende, sodass ein Viewer technisch die komplette Datei braucht, um zu wissen, wo die Dinge sind.

Sicherheit

AES-Verschlüsselung

AES (Advanced Encryption Standard) ist die Blockchiffre, die ein passwortgeschütztes PDF absichert. Wenn du ein Dokument sperrst, werden die Inhaltsströme und Zeichenketten der Seiten mit AES verschlüsselt, und der einzige Weg zurück zu den lesbaren Bytes führt darüber, das richtige Passwort einzugeben und daraus den korrekten Schlüssel abzuleiten. Ohne ihn ist die Datei auf der Festplatte nur Geheimtext.

Elektronische Signatur

Eine elektronische Signatur ist im weitesten rechtlichen Sinne jede Information, die an ein Dokument angehängt wird und die Zustimmungsabsicht des Unterzeichners anzeigt – von einem getippten Namen oder einem gemalten Kringel bis zu einem kryptografisch abgesicherten Siegel. Die EU-Verordnung eIDAS sortiert diese in Stufen ein, und die Unterscheidung zählt, wenn eine Signatur später Bestand haben muss.

Digitale Signatur

Eine digitale Signatur ist der kryptografische Mechanismus, der beweist, wer ein PDF signiert hat und dass es seitdem niemand verändert hat. Sie ist der technische Motor, auf den sich die stärksten elektronischen Signaturen stützen, und sie beruht auf Public-Key-Kryptografie statt auf irgendeinem Bild eines Federstrichs.

Bilder

Vektorgrafik

Vektorgrafik beschreibt ein Bild als Mathematik – Punkte, Linien, Kurven und Füllungen – statt als festes Raster gefärbter Punkte. Ein Kreis wird als Mittelpunkt, Radius und Farbe gespeichert, sodass der Computer ihn in jeder verlangten Größe neu zeichnet. Die Folge ist die prägende Eigenschaft von Vektorgrafik: Sie skaliert auf jede Größe ohne Schärfeverlust.

Rastergrafik

Ein Rasterbild ist ein rechteckiges Raster aus Pixeln, von denen jeder einen Farbwert hält – das Modell hinter jedem Foto und jedem Scan. Anders als ein Vektor hat ein Raster eine feste native Auflösung: Es speichert genau so und so viele Punkte in Breite und Höhe, und all sein Detail ist in dieses Raster eingebrannt.

JPG / JPEG

JPG (auch JPEG geschrieben, nach der Joint Photographic Experts Group, die es definierte) ist das verlustbehaftete Rasterformat für Fotos. Es funktioniert, indem es das Bild in Frequenzkomponenten zerlegt und die feinen Details verwirft, die das menschliche Auge am wenigsten vermisst – so quetscht es ein vollfarbiges Foto in eine kleine Datei.

PNG

PNG (Portable Network Graphics) ist das verlustfreie Rasterformat für Grafiken mit scharfen Kanten und flacher Farbe – Screenshots, Logos, Icons, Diagramme und alles, was Text enthält. Verlustfrei bedeutet, dass es das Bild exakt speichert: Speichere es so oft neu, wie du magst, und kein einziges Pixel ändert sich – das Gegenteil von JPEGs generationsbedingtem Verfall.

WebP

WebP ist ein Bildformat von Google, das sowohl JPEG als auch PNG durch einen einzigen Container ersetzen will. Sein Kniff ist die Unterstützung zweier Modi: verlustbehaftete Komprimierung für Fotos, wie JPEG, und verlustfreie Komprimierung für Grafiken, wie PNG – wobei es bei vergleichbarer Qualität typischerweise kleinere Dateien erzeugt als beide.

TIFF

TIFF (Tagged Image File Format) ist das Schwergewicht unter den Rasterformaten, im Einsatz bei Archivierung, Scannen und professioneller Bildverarbeitung. Sein Name kommt von seiner Struktur: ein flexibler Satz von Tags, die das Bild beschreiben, sodass ein einzelnes TIFF unkomprimierte oder verlustfrei komprimierte Daten, hohe Bittiefen, eingebettete Farbprofile und eine Menge technischer Metadaten enthalten kann.

SVG

SVG (Scalable Vector Graphics) ist ein offenes, XML-basiertes Vektorformat – ein Bild, das als lesbarer Text geschrieben ist und Formen, Pfade, Farben und Text beschreibt. Weil es vektorbasiert ist, skaliert es auf jede Größe mit perfekt scharfen Kanten, und weil es XML ist, lässt es sich mit CSS gestalten, animieren und sogar in einem einfachen Texteditor durchsuchen oder bearbeiten.

DPI

DPI (dots per inch, Punkte pro Zoll) misst die Auflösung – wie viele Detailpunkte in jedem Zoll eines Bildes oder Drucks gepackt sind. Je höher die Zahl, desto feiner das Detail und desto größer die Datei. Es ist die eine Einstellung, die am häufigsten darüber entscheidet, ob ein Scan oder ein Export gestochen scharf oder enttäuschend aussieht.