SŁOWNIK PDF
Słownik PDF: terminy i formaty
Co naprawdę oznacza każdy termin i format PDF, prostym językiem. Żargon, na który trafiasz, wyjaśniony.
Formaty
PDF (Portable Document Format) to format pliku, który zapisuje dokładne położenie każdego znaku, linii i obrazu na stronie. Dzięki temu dokument wygląda identycznie, niezależnie od tego, czy otworzysz go na telefonie, na laptopie, czy na naświetlarce w drukarni. Adobe stworzyło ten format w 1993 roku, a w 2008 przekazało jego specyfikację organizacji ISO, gdzie stał się otwartym standardem ISO 32000. Właśnie ta otwartość sprawia, że tyle niezależnych narzędzi potrafi czytać i zapisywać PDF, nie pytając nikogo o pozwolenie.
PDF/APDF/A to profil normy ISO 19005 stworzony z myślą o długoterminowym archiwizowaniu. Cel jest prosty: dokument otwarty za pięćdziesiąt lat powinien wyświetlać się dokładnie tak jak dziś, bez brakujących czcionek i bez zależności od zewnętrznych zasobów, które mogły już zniknąć. Aby to zagwarantować, standard zakazuje wszystkiego, co mogłoby się z czasem popsuć.
PDF/UAPDF/UA (ISO 14289, gdzie UA oznacza Universal Accessibility, czyli powszechną dostępność) to standard, który czyni PDF użytecznym dla osób korzystających z technologii wspomagających. Czytnik ekranu nie potrafi zinterpretować tuszu na stronie — potrzebuje logicznej struktury pod spodem. PDF/UA dokładnie określa, jak ta struktura ma być zbudowana.
PDF/XPDF/X (ISO 15930) to rodzina profili stworzona dla profesjonalnego druku i sztuk graficznych. Gdy plik trafia do drukarni komercyjnej, każda niejednoznaczność słono kosztuje: brakująca czcionka, obraz RGB tam, gdzie oczekiwano CMYK, albo niezdefiniowane pole przycięcia mogą zniszczyć cały nakład. PDF/X usuwa tę niejednoznaczność, zmuszając do jawnego określenia każdego szczegółu istotnego dla druku.
Pojęcia
OCR (Optical Character Recognition, czyli optyczne rozpoznawanie znaków) zamienia obraz tekstu w prawdziwe, zaznaczalne znaki. Zeskanowana strona albo zdjęcie dokumentu są dla komputera jedynie siatką pikseli — nie ma w nich tekstu, tylko obraz, który przypadkiem wygląda jak słowa. OCR analizuje kształty liter i odtwarza ukryty pod nimi ciąg znaków.
AcroFormAcroForm to natywna, wbudowana technologia formularzy w PDF — rodzaj interaktywnego formularza, który jest częścią formatu od końca lat dziewięćdziesiątych. Wypełnialne pola, jakie widzisz w zeznaniu podatkowym czy w formularzu zgłoszeniowym — pola tekstowe, pola wyboru, przyciski opcji, listy rozwijane i pola podpisu — to obiekty AcroForm zdefiniowane bezpośrednio w strukturze obiektów PDF.
XFAXFA (XML Forms Architecture) to alternatywna technologia formularzy Adobe, w której formularz jest definiowany nie przez natywne obiekty PDF, lecz przez ładunek XML osadzony wewnątrz opakowania PDF. Zaprojektowano ją dla złożonych, dynamicznych formularzy: układów, które rosną wraz z dodawaniem wierszy, pól pojawiających się lub znikających zależnie od wcześniejszych odpowiedzi, oraz ścisłego powiązania ze schematami danych po stronie zaplecza.
MetadaneMetadane to dane o Twoich danych — informacje, które PDF niesie poza widoczną treścią strony. Istnieją dwa główne magazyny: starszy słownik informacji o dokumencie (tytuł, autor, temat, słowa kluczowe, oprogramowanie, które go utworzyło, oraz daty utworzenia i modyfikacji) oraz XMP, blok oparty na XML, który przechowuje te same pola plus bogatsze, rozszerzalne właściwości.
KompresjaKompresja to to, co utrzymuje rozmiary plików PDF w ryzach, a pojedynczy dokument zwykle miesza kilka metod, bo miesza kilka rodzajów treści. Tekst i instrukcje rysowania wektorów kompresują się bezstratnie za pomocą Flate (tego samego algorytmu Deflate, który stoi za ZIP), więc każdy znak wraca dokładnie taki, jaki był.
Osadzone czcionkiOsadzone czcionki to kroje spakowane wewnątrz samego PDF, zamiast pożyczane od komputera, który go otwiera. To właśnie ta cecha sprawia, że PDF jest naprawdę przenośny: jeśli czcionka podróżuje razem z dokumentem, tekst renderuje się identycznie wszędzie, nawet na maszynie, na której tego kroju nigdy nie zainstalowano.
Warstwa tekstowaWarstwa tekstowa to część PDF, która przechowuje prawdziwe, czytelne maszynowo znaki — treść, którą możesz zaznaczyć kursorem, skopiować, przeszukać i odsłuchać. PDF zbudowany w edytorze tekstu lub programie do składu ma tę warstwę natywnie, z każdym znakiem przypisanym do pozycji i czcionki.
Znak wodnyZnak wodny to tekst lub obraz nałożony na strony PDF, by zaznaczyć status lub własność — blade „SZKIC” albo „POUFNE” po przekątnej strony, logo firmy czy linijka z prawami autorskimi. Sygnalizuje zamiar, nie zasłaniając treści pod spodem, zwykle dzięki półprzezroczystości lub umieszczeniu za głównym tekstem.
Linearyzacja (Fast Web View)Linearyzacja, sprzedawana przez Adobe jako Fast Web View, to sposób reorganizacji wewnętrznej kolejności bajtów PDF, by można było go wyświetlić, zanim dotrze cały plik. W normalnym PDF tabela odwołań indeksująca każdy obiekt znajduje się na samym końcu, więc czytnik technicznie potrzebuje kompletnego pliku, by wiedzieć, gdzie co leży.
Bezpieczeństwo
AES (Advanced Encryption Standard) to szyfr blokowy, który zabezpiecza PDF chroniony hasłem. Gdy blokujesz dokument, strumienie treści stron i łańcuchy znaków są szyfrowane za pomocą AES, a jedyną drogą z powrotem do czytelnych bajtów jest podanie właściwego hasła i wyprowadzenie poprawnego klucza. Bez tego plik na dysku to po prostu szyfrogram.
Podpis elektronicznyPodpis elektroniczny to, w najszerszym sensie prawnym, dowolne dane dołączone do dokumentu, które wskazują na zamiar podpisującego, by się zgodzić — od wpisanego imienia czy narysowanej zawijasy po zabezpieczoną kryptograficznie pieczęć. Unijne rozporządzenie eIDAS porządkuje je w poziomy, a to rozróżnienie ma znaczenie, gdy podpis musi się obronić później.
Podpis cyfrowyPodpis cyfrowy to kryptograficzny mechanizm, który dowodzi, kto podpisał PDF i że od tego czasu nikt go nie zmienił. To techniczny silnik, na którym opierają się najmocniejsze podpisy elektroniczne, zbudowany z kryptografii klucza publicznego, a nie z jakiegokolwiek obrazka pociągnięcia pióra.
Obrazy
Grafika wektorowa opisuje obraz jako matematykę — punkty, linie, krzywe i wypełnienia — a nie jako stałą siatkę kolorowych kropek. Okrąg jest zapisany jako środek, promień i kolor, więc komputer rysuje go na nowo w dowolnym żądanym rozmiarze. Konsekwencją jest definiująca cecha grafiki wektorowej: skaluje się do dowolnego rozmiaru bez utraty ostrości.
Obraz rastrowyObraz rastrowy to prostokątna siatka pikseli, z których każdy przechowuje wartość koloru — model stojący za każdą fotografią i każdym skanem. W przeciwieństwie do wektora raster ma stałą natywną rozdzielczość: zapisuje dokładnie tyle a tyle kropek wszerz i w pionie, a cały jego szczegół jest wpieczony w tę siatkę.
JPG / JPEGJPG (zapisywany też jako JPEG, od grupy Joint Photographic Experts Group, która go zdefiniowała) to stratny format rastrowy stworzony dla fotografii. Działa, przekształcając obraz w składowe częstotliwości i odrzucając drobne szczegóły, których ludzkie oko najpewniej nie zauważy — tak właśnie ściska pełnokolorowe zdjęcie do małego pliku.
PNGPNG (Portable Network Graphics) to bezstratny format rastrowy do grafik o ostrych krawędziach i płaskim kolorze — zrzutów ekranu, log, ikon, diagramów i wszystkiego, co zawiera tekst. Bezstratny oznacza, że przechowuje obraz dokładnie: zapisuj go ponownie, ile chcesz, a żaden piksel się nie zmieni — przeciwieństwo pokoleniowego rozpadu JPEG.
WebPWebP to format obrazu od Google, który ma zastąpić zarówno JPEG, jak i PNG jednym kontenerem. Jego sztuczka to obsługa dwóch trybów: kompresji stratnej dla fotografii, jak JPEG, oraz kompresji bezstratnej dla grafik, jak PNG, przy zwykle mniejszych plikach niż każdy z nich przy porównywalnej jakości.
TIFFTIFF (Tagged Image File Format) to ciężki format rastrowy używany w archiwizacji, skanowaniu i profesjonalnej obróbce obrazu. Jego nazwa pochodzi od struktury: elastycznego zestawu tagów opisujących obraz, dzięki czemu jeden TIFF może przechowywać dane nieskompresowane lub skompresowane bezstratnie, wysokie głębie bitowe, osadzone profile kolorów i sporo technicznych metadanych.
SVGSVG (Scalable Vector Graphics) to otwarty format wektorowy oparty na XML — obraz zapisany jako czytelny tekst opisujący kształty, ścieżki, kolory i tekst. Ponieważ jest wektorowy, skaluje się do dowolnego rozmiaru z idealnie ostrymi krawędziami, a ponieważ jest XML, można go stylizować za pomocą CSS, animować, a nawet przeszukiwać czy edytować w zwykłym edytorze tekstu.
DPIDPI (dots per inch, punkty na cal) mierzy rozdzielczość — ile punktów szczegółu upakowano w każdym calu obrazu lub wydruku. Im wyższa liczba, tym drobniejszy szczegół i tym większy plik. To pojedyncze ustawienie najczęściej decyduje, czy skan albo eksport wygląda ostro, czy rozczarowująco.