ГЛОСАРІЙ PDF
Глосарій PDF: терміни та формати
Що насправді означає кожен термін і формат PDF — простою мовою. Жаргон, з яким ви стикаєтеся, пояснений по-людськи.
Формати
PDF (Portable Document Format) — це формат файлу, який фіксує точне положення кожного символа, лінії та зображення на сторінці, тож документ виглядає однаково, чи відкриваєте ви його на телефоні, на ноутбуці чи на RIP-системі друкарні. Adobe створила його у 1993 році, а в 2008-му передала специфікацію до ISO, де він став відкритим стандартом ISO 32000. Саме завдяки цій відкритості стільки незалежних інструментів вміють читати й записувати PDF, ні в кого не питаючи дозволу.
PDF/APDF/A — це профіль ISO 19005, створений для довготривалого архівного зберігання. Мета проста: документ, відкритий за п'ятдесят років, має відображатися рівно так само, як сьогодні, — без зниклих шрифтів і без залежності від зовнішніх ресурсів, які можуть щезнути. Щоб це гарантувати, стандарт забороняє все, що здатне зламатися з часом.
PDF/UAPDF/UA (ISO 14289, де UA означає Universal Accessibility — універсальна доступність) — це стандарт, який робить PDF придатним для людей, що покладаються на допоміжні технології. Програма читання з екрана не розуміє фарбу на сторінці — їй потрібна логічна структура під нею. PDF/UA визначає, як саме цю структуру треба побудувати.
PDF/XPDF/X (ISO 15930) — це сімейство профілів, створених для професійного друку та поліграфії. Коли файл іде до друкарні, будь-яка неоднозначність обходиться дорого: зниклий шрифт, RGB-зображення там, де очікувався CMYK, чи невизначена обрізна область можуть зіпсувати весь наклад. PDF/X прибирає цю неоднозначність, вимагаючи, щоб кожна важлива для друку деталь була задана явно.
Поняття
OCR (Optical Character Recognition — оптичне розпізнавання символів) перетворює зображення тексту на справжні, виділювані символи. Скан-сторінка чи фото документа для комп'ютера — лише сітка пікселів: тексту в ній немає, тільки картинка, яка випадково схожа на слова. OCR аналізує форми літер і відновлює рядок символів, що стоїть за ними.
AcroFormAcroForm — це рідна, вбудована технологія форм PDF, той тип інтерактивної форми, що є частиною формату з кінця 1990-х. Заповнювані поля, які ви бачите в податковій декларації чи в анкеті, — текстові поля, прапорці, перемикачі, випадні списки й поля підпису — це об'єкти AcroForm, визначені прямо в об'єктній структурі PDF.
XFAXFA (XML Forms Architecture) — це альтернативна технологія форм від Adobe, у якій форма визначається не рідними об'єктами PDF, а XML-навантаженням, вбудованим усередину PDF-оболонки. Її розробили для складних, динамічних форм: розкладок, що ростуть, коли ви додаєте рядки, полів, які з'являються чи зникають залежно від попередніх відповідей, і тісного зв'язування зі схемами серверних даних.
МетаданіМетадані — це дані про ваші дані, інформація, яку PDF несе поза видимим вмістом сторінки. Є два основні сховища: застарілий словник інформації про документ (Document Information Dictionary — назва, автор, тема, ключові слова, програма, що його створила, а також дати створення та зміни) і XMP — блок на основі XML, що містить ті самі поля плюс багатші, розширювані властивості.
СтисненняСтиснення — це те, що тримає розмір PDF-файлів керованим, і один документ зазвичай поєднує кілька методів, бо поєднує кілька видів вмісту. Текст і векторні інструкції малювання стискаються без втрат за допомогою Flate (той самий алгоритм Deflate, що стоїть за ZIP), тож кожен символ повертається точно таким, яким зайшов.
Вбудовані шрифтиВбудовані шрифти — це гарнітури, упаковані всередину самого PDF, а не позичені в комп'ютера, що його відкриває. Саме ця властивість робить PDF справді переносним: якщо шрифт подорожує разом із документом, текст відображається однаково всюди, навіть на машині, де цю гарнітуру ніколи не встановлювали.
Текстовий шарТекстовий шар — це частина PDF, що містить справжні, машиночитні символи: вміст, який можна виділити курсором, скопіювати, знайти й озвучити вголос. PDF, побудований із текстового процесора чи застосунку для верстки, має цей шар від народження, де кожен символ зіставлений із положенням і шрифтом.
Водяний знакВодяний знак — це текст чи зображення, накладене на сторінки PDF, щоб позначити статус чи власність: бліде «ЧЕРНЕТКА» або «КОНФІДЕНЦІЙНО» по діагоналі сторінки, логотип компанії чи рядок про авторські права. Він сигналізує про намір, не затуляючи вмісту під ним, — зазвичай завдяки напівпрозорості або тому, що сидить позаду основного тексту.
ЛінеаризаціяЛінеаризація, яку Adobe продає під назвою Fast Web View, — це спосіб переупорядкувати внутрішній порядок байтів PDF, щоб його можна було показати ще до того, як надійде весь файл. У звичайному PDF таблиця перехресних посилань, що індексує кожен об'єкт, сидить у самісінькому кінці, тож переглядачу технічно потрібен повний файл, щоб знати, де що знаходиться.
Безпека
AES (Advanced Encryption Standard) — це блоковий шифр, що захищає PDF, захищений паролем. Коли ви блокуєте документ, потоки вмісту й рядки сторінок шифруються за допомогою AES, і єдиний шлях назад до читабельних байтів — подати правильний пароль і вивести коректний ключ. Без нього файл на диску — лише шифротекст.
Електронний підписЕлектронний підпис — у найширшому юридичному сенсі це будь-які дані, прикріплені до документа, які вказують на намір підписанта погодитися: від набраного імені чи намальованої закарлючки до криптографічно підкріпленої печатки. Регламент ЄС eIDAS розподіляє їх за рівнями, і ця різниця має значення, коли підпис має витримати перевірку згодом.
Цифровий підписЦифровий підпис — це криптографічний механізм, що доводить, хто підписав PDF і що ніхто не змінював його відтоді. Це технічний рушій, на який спираються найсильніші електронні підписи, і він побудований на криптографії з відкритим ключем, а не на якомусь зображенні розчерку пера.
Зображення
Векторна графіка описує зображення як математику — точки, лінії, криві та заливки, — а не як фіксовану сітку кольорових крапок. Коло зберігається як центр, радіус і колір, тож комп'ютер перемальовує його в будь-якому запитаному розмірі. Наслідок — визначальна властивість векторного мистецтва: воно масштабується до будь-якого розміру без втрати чіткості.
Растрова графікаРастрове зображення — це прямокутна сітка пікселів, кожен із яких містить значення кольору; це модель, що стоїть за кожною фотографією та сканом. На відміну від вектора, растр має фіксовану власну роздільність: він зберігає рівно стільки крапок завширшки та заввишки, і вся його деталізація запечена в цю сітку.
JPGJPG (також пишеться JPEG, за назвою Joint Photographic Experts Group, що його визначила) — це втратний растровий формат, створений для фотографій. Він працює, перетворюючи зображення на частотні складові й відкидаючи дрібні деталі, які людське око найімовірніше не помітить, — саме так він втискає повноколірне фото в малий файл.
PNGPNG (Portable Network Graphics) — це безвтратний растровий формат для графіки з різкими краями та пласким кольором: знімків екрана, логотипів, піктограм, схем і всього, що містить текст. Безвтратний означає, що він зберігає зображення точно: пересохраняйте його як завгодно часто, і жоден піксель не зміниться — протилежність поколінному занепаду JPEG.
WebPWebP — це формат зображень від Google, що прагне замінити і JPEG, і PNG одним контейнером. Його хитрість — підтримка двох режимів: втратне стиснення для фотографій, як JPEG, і безвтратне стиснення для графіки, як PNG, при цьому зазвичай даючи менші файли, ніж будь-який із них за порівнянної якості.
TIFFTIFF (Tagged Image File Format) — це важковаговий растровий формат, що використовується в архівуванні, скануванні та професійній обробці зображень. Його назва походить від структури: гнучкий набір теґів, що описують зображення, який дозволяє одному TIFF містити нестиснені чи безвтратно стиснені дані, високу глибину кольору, вбудовані колірні профілі та чимало технічних метаданих.
SVGSVG (Scalable Vector Graphics) — це відкритий векторний формат на основі XML, зображення, записане як читабельний текст, що описує форми, контури, кольори й текст. Оскільки він векторний, він масштабується до будь-якого розміру з ідеально чіткими краями, а оскільки це XML, його можна стилізувати за допомогою CSS, анімувати й навіть шукати чи редагувати у звичайному текстовому редакторі.
DPIDPI (dots per inch — крапок на дюйм) вимірює роздільність — скільки крапок деталізації втиснуто в кожен дюйм зображення чи відбитка. Що вище число, то тонша деталізація й то більший файл. Це єдине налаштування, яке найчастіше вирішує, чи виглядатиме скан або експорт чітким, чи розчаровуючим.