ГЛОСАРІЙ PDF

Глосарій PDF: терміни та формати

Що насправді означає кожен термін і формат PDF — простою мовою. Жаргон, з яким ви стикаєтеся, пояснений по-людськи.

Формати

PDF (Portable Document Format) — це формат файлу, який фіксує точне положення кожного символа, лінії та зображення на сторінці, тож документ виглядає однаково, чи відкриваєте ви його на телефоні, на ноутбуці чи на RIP-системі друкарні. Adobe створила його у 1993 році, а в 2008-му передала специфікацію до ISO, де він став відкритим стандартом ISO 32000. Саме завдяки цій відкритості стільки незалежних інструментів вміють читати й записувати PDF, ні в кого не питаючи дозволу.

PDF/A

PDF/A — це профіль ISO 19005, створений для довготривалого архівного зберігання. Мета проста: документ, відкритий за п'ятдесят років, має відображатися рівно так само, як сьогодні, — без зниклих шрифтів і без залежності від зовнішніх ресурсів, які можуть щезнути. Щоб це гарантувати, стандарт забороняє все, що здатне зламатися з часом.

PDF/UA

PDF/UA (ISO 14289, де UA означає Universal Accessibility — універсальна доступність) — це стандарт, який робить PDF придатним для людей, що покладаються на допоміжні технології. Програма читання з екрана не розуміє фарбу на сторінці — їй потрібна логічна структура під нею. PDF/UA визначає, як саме цю структуру треба побудувати.

PDF/X

PDF/X (ISO 15930) — це сімейство профілів, створених для професійного друку та поліграфії. Коли файл іде до друкарні, будь-яка неоднозначність обходиться дорого: зниклий шрифт, RGB-зображення там, де очікувався CMYK, чи невизначена обрізна область можуть зіпсувати весь наклад. PDF/X прибирає цю неоднозначність, вимагаючи, щоб кожна важлива для друку деталь була задана явно.

Поняття

OCR

OCR (Optical Character Recognition — оптичне розпізнавання символів) перетворює зображення тексту на справжні, виділювані символи. Скан-сторінка чи фото документа для комп'ютера — лише сітка пікселів: тексту в ній немає, тільки картинка, яка випадково схожа на слова. OCR аналізує форми літер і відновлює рядок символів, що стоїть за ними.

AcroForm

AcroForm — це рідна, вбудована технологія форм PDF, той тип інтерактивної форми, що є частиною формату з кінця 1990-х. Заповнювані поля, які ви бачите в податковій декларації чи в анкеті, — текстові поля, прапорці, перемикачі, випадні списки й поля підпису — це об'єкти AcroForm, визначені прямо в об'єктній структурі PDF.

XFA

XFA (XML Forms Architecture) — це альтернативна технологія форм від Adobe, у якій форма визначається не рідними об'єктами PDF, а XML-навантаженням, вбудованим усередину PDF-оболонки. Її розробили для складних, динамічних форм: розкладок, що ростуть, коли ви додаєте рядки, полів, які з'являються чи зникають залежно від попередніх відповідей, і тісного зв'язування зі схемами серверних даних.

Метадані

Метадані — це дані про ваші дані, інформація, яку PDF несе поза видимим вмістом сторінки. Є два основні сховища: застарілий словник інформації про документ (Document Information Dictionary — назва, автор, тема, ключові слова, програма, що його створила, а також дати створення та зміни) і XMP — блок на основі XML, що містить ті самі поля плюс багатші, розширювані властивості.

Стиснення

Стиснення — це те, що тримає розмір PDF-файлів керованим, і один документ зазвичай поєднує кілька методів, бо поєднує кілька видів вмісту. Текст і векторні інструкції малювання стискаються без втрат за допомогою Flate (той самий алгоритм Deflate, що стоїть за ZIP), тож кожен символ повертається точно таким, яким зайшов.

Вбудовані шрифти

Вбудовані шрифти — це гарнітури, упаковані всередину самого PDF, а не позичені в комп'ютера, що його відкриває. Саме ця властивість робить PDF справді переносним: якщо шрифт подорожує разом із документом, текст відображається однаково всюди, навіть на машині, де цю гарнітуру ніколи не встановлювали.

Текстовий шар

Текстовий шар — це частина PDF, що містить справжні, машиночитні символи: вміст, який можна виділити курсором, скопіювати, знайти й озвучити вголос. PDF, побудований із текстового процесора чи застосунку для верстки, має цей шар від народження, де кожен символ зіставлений із положенням і шрифтом.

Водяний знак

Водяний знак — це текст чи зображення, накладене на сторінки PDF, щоб позначити статус чи власність: бліде «ЧЕРНЕТКА» або «КОНФІДЕНЦІЙНО» по діагоналі сторінки, логотип компанії чи рядок про авторські права. Він сигналізує про намір, не затуляючи вмісту під ним, — зазвичай завдяки напівпрозорості або тому, що сидить позаду основного тексту.

Лінеаризація

Лінеаризація, яку Adobe продає під назвою Fast Web View, — це спосіб переупорядкувати внутрішній порядок байтів PDF, щоб його можна було показати ще до того, як надійде весь файл. У звичайному PDF таблиця перехресних посилань, що індексує кожен об'єкт, сидить у самісінькому кінці, тож переглядачу технічно потрібен повний файл, щоб знати, де що знаходиться.

Безпека

AES

AES (Advanced Encryption Standard) — це блоковий шифр, що захищає PDF, захищений паролем. Коли ви блокуєте документ, потоки вмісту й рядки сторінок шифруються за допомогою AES, і єдиний шлях назад до читабельних байтів — подати правильний пароль і вивести коректний ключ. Без нього файл на диску — лише шифротекст.

Електронний підпис

Електронний підпис — у найширшому юридичному сенсі це будь-які дані, прикріплені до документа, які вказують на намір підписанта погодитися: від набраного імені чи намальованої закарлючки до криптографічно підкріпленої печатки. Регламент ЄС eIDAS розподіляє їх за рівнями, і ця різниця має значення, коли підпис має витримати перевірку згодом.

Цифровий підпис

Цифровий підпис — це криптографічний механізм, що доводить, хто підписав PDF і що ніхто не змінював його відтоді. Це технічний рушій, на який спираються найсильніші електронні підписи, і він побудований на криптографії з відкритим ключем, а не на якомусь зображенні розчерку пера.

Зображення

Векторна графіка

Векторна графіка описує зображення як математику — точки, лінії, криві та заливки, — а не як фіксовану сітку кольорових крапок. Коло зберігається як центр, радіус і колір, тож комп'ютер перемальовує його в будь-якому запитаному розмірі. Наслідок — визначальна властивість векторного мистецтва: воно масштабується до будь-якого розміру без втрати чіткості.

Растрова графіка

Растрове зображення — це прямокутна сітка пікселів, кожен із яких містить значення кольору; це модель, що стоїть за кожною фотографією та сканом. На відміну від вектора, растр має фіксовану власну роздільність: він зберігає рівно стільки крапок завширшки та заввишки, і вся його деталізація запечена в цю сітку.

JPG

JPG (також пишеться JPEG, за назвою Joint Photographic Experts Group, що його визначила) — це втратний растровий формат, створений для фотографій. Він працює, перетворюючи зображення на частотні складові й відкидаючи дрібні деталі, які людське око найімовірніше не помітить, — саме так він втискає повноколірне фото в малий файл.

PNG

PNG (Portable Network Graphics) — це безвтратний растровий формат для графіки з різкими краями та пласким кольором: знімків екрана, логотипів, піктограм, схем і всього, що містить текст. Безвтратний означає, що він зберігає зображення точно: пересохраняйте його як завгодно часто, і жоден піксель не зміниться — протилежність поколінному занепаду JPEG.

WebP

WebP — це формат зображень від Google, що прагне замінити і JPEG, і PNG одним контейнером. Його хитрість — підтримка двох режимів: втратне стиснення для фотографій, як JPEG, і безвтратне стиснення для графіки, як PNG, при цьому зазвичай даючи менші файли, ніж будь-який із них за порівнянної якості.

TIFF

TIFF (Tagged Image File Format) — це важковаговий растровий формат, що використовується в архівуванні, скануванні та професійній обробці зображень. Його назва походить від структури: гнучкий набір теґів, що описують зображення, який дозволяє одному TIFF містити нестиснені чи безвтратно стиснені дані, високу глибину кольору, вбудовані колірні профілі та чимало технічних метаданих.

SVG

SVG (Scalable Vector Graphics) — це відкритий векторний формат на основі XML, зображення, записане як читабельний текст, що описує форми, контури, кольори й текст. Оскільки він векторний, він масштабується до будь-якого розміру з ідеально чіткими краями, а оскільки це XML, його можна стилізувати за допомогою CSS, анімувати й навіть шукати чи редагувати у звичайному текстовому редакторі.

DPI

DPI (dots per inch — крапок на дюйм) вимірює роздільність — скільки крапок деталізації втиснуто в кожен дюйм зображення чи відбитка. Що вище число, то тонша деталізація й то більший файл. Це єдине налаштування, яке найчастіше вирішує, чи виглядатиме скан або експорт чітким, чи розчаровуючим.