PDF-ORDLISTA

PDF-ordlista: termer och format

Vad varje PDF-term och format faktiskt betyder, i klarspråk. Facktermerna du stöter på, förklarade.

Format

PDF (Portable Document Format) är ett filformat som låser den exakta positionen för varje tecken, varje linje och varje bild på en sida, så att ett dokument ser likadant ut oavsett om du öppnar det på en mobil, en bärbar dator eller i RIP-systemet hos ett tryckeri. Adobe skapade det 1993 och lämnade över specifikationen till ISO 2008, där det blev den öppna standarden ISO 32000. Just den öppenheten är skälet till att så många fristående verktyg kan läsa och skriva PDF utan att be någon om lov.

PDF/A

PDF/A är profilen ISO 19005, byggd för långtidsarkivering. Målet är enkelt: ett dokument som öppnas om femtio år ska återges exakt som det gör idag, utan saknade teckensnitt och utan beroende av externa resurser som kan ha försvunnit. För att garantera det förbjuder standarden allt som skulle kunna gå sönder med tiden.

PDF/UA

PDF/UA (ISO 14289, där UA står för Universal Accessibility, alltså universell tillgänglighet) är standarden som gör en PDF användbar för människor som är beroende av hjälpmedelsteknik. En skärmläsare kan inte tolka bläck på en sida; den behöver en logisk struktur under ytan. PDF/UA anger exakt hur den strukturen måste byggas.

PDF/X

PDF/X (ISO 15930) är familjen av profiler gjorda för professionellt tryck och grafisk produktion. När en fil går till ett tryckeri blir tvetydighet dyrt: ett saknat teckensnitt, en RGB-bild där CMYK förväntades eller en odefinierad beskärningsram kan förstöra en hel upplaga. PDF/X tar bort tvetydigheten genom att tvinga varje tryckkritisk detalj att vara uttalad.

Begrepp

OCR

OCR (Optical Character Recognition) förvandlar bilden av text till faktiska, markerbara tecken. En inskannad sida eller ett foto av ett dokument är, för en dator, bara ett rutnät av pixlar: det finns ingen text i det, bara en bild som råkar se ut som ord. OCR analyserar bokstävernas former och bygger upp den underliggande teckensträngen på nytt.

AcroForm

Ett AcroForm är PDF:ens inbyggda, ursprungliga formulärteknik, den sortens interaktiva formulär som har varit en del av formatet sedan slutet av 1990-talet. De ifyllbara fält du ser i en självdeklaration eller en ansökningsblankett, textrutor, kryssrutor, radioknappar, rullgardinsmenyer och signaturfält, är AcroForm-objekt definierade direkt i PDF:ens objektstruktur.

XFA

XFA (XML Forms Architecture) är Adobes alternativa formulärteknik, där formuläret inte definieras av ursprungliga PDF-objekt utan av en XML-nyttolast inbäddad inuti PDF-omslaget. Det utformades för komplexa, dynamiska formulär: layouter som växer när du lägger till rader, fält som dyker upp eller försvinner utifrån tidigare svar, och tät koppling till databasscheman i bakänden.

Metadata

Metadata är data om din data, informationen en PDF bär med sig utöver det synliga sidinnehållet. Det finns två huvudsakliga lager: den äldre informationsordlistan för dokument (titel, författare, ämne, nyckelord, programmet som skapade filen samt datum för skapande och ändring) och XMP, ett XML-baserat block som rymmer samma fält plus rikare, utbyggbara egenskaper.

Komprimering

Komprimering är det som håller PDF-filers storlek hanterbar, och ett enskilt dokument blandar oftast flera metoder eftersom det blandar flera sorters innehåll. Text och vektorritinstruktioner komprimeras förlustfritt med Flate (samma Deflate-algoritm som ligger bakom ZIP), så att varje tecken kommer tillbaka exakt som det gick in.

Inbäddade teckensnitt

Inbäddade teckensnitt är typsnitt som paketeras inuti själva PDF:en i stället för att lånas från datorn som öppnar den. Det är funktionen som gör PDF verkligt portabel: om teckensnittet följer med dokumentet återges texten likadant överallt, även på en maskin som aldrig haft typsnittet installerat.

Textlager

Textlagret är den del av en PDF som rymmer riktiga, maskinläsbara tecken, det innehåll du kan markera med pekaren, kopiera, söka i och få uppläst. En PDF skapad i ett ordbehandlings- eller layoutprogram har det här lagret från början, med varje tecken kopplat till en position och ett teckensnitt.

Vattenstämpel

En vattenstämpel är text eller en bild som läggs över en PDF:s sidor för att markera status eller ägarskap, ett svagt "UTKAST" eller "KONFIDENTIELLT" diagonalt över sidan, en företagslogotyp eller en upphovsrättsrad. Den signalerar avsikt utan att dölja det underliggande innehållet, oftast genom att vara halvtransparent eller ligga bakom huvudtexten.

Linjärisering

Linjärisering, marknadsförd av Adobe som Fast Web View, är ett sätt att omorganisera en PDF:s interna byteordning så att den kan visas innan hela filen har anlänt. I en vanlig PDF sitter korsreferenstabellen som indexerar varje objekt allra sist, så en visare behöver tekniskt sett hela filen för att veta var saker ligger.

Säkerhet

AES

AES (Advanced Encryption Standard) är blockchiffret som säkrar en lösenordsskyddad PDF. När du låser ett dokument krypteras sidinnehållets strömmar och strängar med AES, och enda vägen tillbaka till de läsbara byten är att ange rätt lösenord och härleda rätt nyckel. Utan den är filen på disken bara chiffertext.

Elektronisk signatur

En elektronisk signatur är, i vidaste juridiska mening, vilken data som helst som fästs vid ett dokument för att visa undertecknarens avsikt att gå med på något, från ett inskrivet namn eller en ritad krumelur upp till ett kryptografiskt underbyggt sigill. EU:s eIDAS-förordning delar in dessa i nivåer, och skillnaden spelar roll när en signatur måste hålla i efterhand.

Digital signatur

En digital signatur är den kryptografiska mekanism som bevisar vem som signerade en PDF och att ingen har ändrat den sedan dess. Det är den tekniska motor som de starkaste elektroniska signaturerna vilar på, och den är byggd av kryptografi med öppen nyckel snarare än någon bild av ett pennstreck.

Bilder

Vektorgrafik

Vektorgrafik beskriver en bild som matematik, punkter, linjer, kurvor och fyllningar, snarare än som ett fast rutnät av färgade prickar. En cirkel lagras som en mittpunkt, en radie och en färg, så att datorn ritar om den i vilken storlek som än efterfrågas. Följden är vektorkonstens kännetecknande egenskap: den skalar till vilken storlek som helst utan att tappa skärpa.

Rasterbild

En rasterbild är ett rektangulärt rutnät av pixlar, där var och en bär ett färgvärde, modellen bakom varje fotografi och varje skanning. Till skillnad från en vektor har en raster en fast ursprunglig upplösning: den lagrar exakt så och så många prickar på bredden och höjden, och all dess detalj är inbränd i det rutnätet.

JPG

JPG (skrivs även JPEG, efter Joint Photographic Experts Group som definierade det) är det förlustbehäftade rasterformatet byggt för fotografier. Det fungerar genom att omvandla bilden till frekvenskomponenter och kasta de fina detaljer som det mänskliga ögat är minst benäget att sakna, vilket är hur det pressar in ett färgfoto i en liten fil.

PNG

PNG (Portable Network Graphics) är det förlustfria rasterformatet för grafik med skarpa kanter och platt färg, skärmbilder, logotyper, ikoner, diagram och allt som innehåller text. Förlustfritt betyder att det lagrar bilden exakt: spara om den hur ofta du vill och inte en enda pixel ändras, motsatsen till JPEG:s generationsbundna nedbrytning.

WebP

WebP är ett bildformat från Google som strävar efter att ersätta både JPEG och PNG med en enda behållare. Knepet är att stödja två lägen: förlustbehäftad komprimering för fotografier, som JPEG, och förlustfri komprimering för grafik, som PNG, samtidigt som det oftast ger mindre filer än bägge vid jämförbar kvalitet.

TIFF

TIFF (Tagged Image File Format) är det tunga rasterformatet som används inom arkivering, skanning och professionell bildbehandling. Namnet kommer av dess struktur: en flexibel uppsättning taggar som beskriver bilden, vilket låter en enda TIFF rymma okomprimerad eller förlustfritt komprimerad data, höga bitdjup, inbäddade färgprofiler och en stor mängd teknisk metadata.

SVG

SVG (Scalable Vector Graphics) är ett öppet, XML-baserat vektorformat, en bild skriven som läsbar text som beskriver former, banor, färger och text. Eftersom det är vektor skalar det till vilken storlek som helst med perfekt skarpa kanter, och eftersom det är XML kan det formges med CSS, animeras och till och med sökas i eller redigeras i en vanlig textredigerare.

DPI

DPI (dots per inch, punkter per tum) mäter upplösning, hur många detaljprickar som packas in i varje tum av en bild eller ett tryck. Ju högre tal, desto finare detalj och desto större fil. Det är den enskilda inställning som oftast avgör om en skanning eller en export ser skarp eller en aning besviken ut.