ГЛОССАРИЙ PDF
Глоссарий PDF: термины и форматы
Что на самом деле означает каждый термин и формат PDF — простым языком. Жаргон, с которым вы сталкиваетесь, объяснён по-человечески.
Форматы
PDF (Portable Document Format) — это формат файла, который фиксирует точное положение каждого символа, линии и изображения на странице, поэтому документ выглядит одинаково, открываете вы его на телефоне, на ноутбуке или на печатной машине в типографии. Adobe создала его в 1993 году, а в 2008-м передала спецификацию в ISO, где он стал открытым стандартом ISO 32000. Именно благодаря этой открытости столько независимых инструментов умеют читать и записывать PDF, ни у кого не спрашивая разрешения.
PDF/APDF/A — это профиль ISO 19005, созданный для долговременного архивного хранения. Цель простая: документ, открытый через пятьдесят лет, должен отображаться ровно так же, как сегодня, — без пропавших шрифтов и без зависимости от внешних ресурсов, которые могут исчезнуть. Чтобы это гарантировать, стандарт запрещает всё, что способно сломаться со временем.
PDF/UAPDF/UA (ISO 14289, где UA означает Universal Accessibility — универсальная доступность) — это стандарт, который делает PDF пригодным для людей, полагающихся на вспомогательные технологии. Программа чтения с экрана не понимает краску на странице — ей нужна логическая структура под ней. PDF/UA определяет, как именно эту структуру нужно построить.
PDF/XPDF/X (ISO 15930) — это семейство профилей, созданных для профессиональной печати и полиграфии. Когда файл уходит в типографию, любая неоднозначность обходится дорого: пропавший шрифт, RGB-изображение там, где ожидался CMYK, или неопределённая обрезная область могут испортить весь тираж. PDF/X убирает эту неоднозначность, требуя, чтобы каждая важная для печати деталь была задана явно.
Понятия
OCR (Optical Character Recognition, оптическое распознавание символов) превращает изображение текста в настоящие, выделяемые символы. Отсканированная страница или фотография документа для компьютера — всего лишь сетка пикселей: текста в ней нет, есть только картинка, которая случайно похожа на слова. OCR анализирует форму букв и восстанавливает лежащую под ними строку символов.
AcroFormAcroForm — это родная, встроенная технология форм в PDF, тот самый тип интерактивной формы, который входит в формат с конца 1990-х. Заполняемые поля, которые вы видите в налоговой декларации или анкете, — текстовые поля, флажки, переключатели, выпадающие списки и поля подписи — это объекты AcroForm, заданные прямо в объектной структуре PDF.
XFAXFA (XML Forms Architecture) — это альтернативная технология форм от Adobe, в которой форма задаётся не родными объектами PDF, а XML-нагрузкой, встроенной внутрь PDF-оболочки. Её придумали для сложных, динамических форм: макетов, которые разрастаются по мере добавления строк, полей, появляющихся или исчезающих в зависимости от предыдущих ответов, и плотной привязки к схемам данных на бэкенде.
МетаданныеМетаданные — это данные о ваших данных, сведения, которые PDF несёт сверх видимого содержимого страницы. Хранилищ два: устаревший словарь информации о документе (заголовок, автор, тема, ключевые слова, создавшая программа, а также даты создания и изменения) и XMP — блок на основе XML, содержащий те же поля плюс более богатые, расширяемые свойства.
СжатиеСжатие — это то, что удерживает размер PDF-файлов в разумных пределах, и один документ обычно смешивает несколько методов, потому что смешивает несколько видов содержимого. Текст и векторные инструкции рисования сжимаются без потерь алгоритмом Flate (тот же Deflate, что стоит за ZIP), поэтому каждый символ возвращается ровно таким, каким был.
Встроенные шрифтыВстроенные шрифты — это начертания, упакованные внутрь самого PDF, а не позаимствованные у компьютера, который его открывает. Именно эта возможность делает PDF по-настоящему переносимым: если шрифт путешествует вместе с документом, текст отображается одинаково везде, даже на машине, где это начертание никогда не было установлено.
Текстовый слойТекстовый слой — это часть PDF, содержащая настоящие, машиночитаемые символы: содержимое, которое можно выделить курсором, скопировать, найти и озвучить вслух. PDF, собранный из текстового редактора или программы вёрстки, имеет этот слой изначально, и каждый символ привязан к позиции и шрифту.
Водяной знакВодяной знак — это текст или изображение, наложенные поверх страниц PDF, чтобы обозначить статус или принадлежность: бледное «ЧЕРНОВИК» или «КОНФИДЕНЦИАЛЬНО» по диагонали страницы, логотип компании или строка об авторском праве. Он сообщает о намерении, не заслоняя содержимое под ним, — обычно за счёт полупрозрачности или того, что располагается позади основного текста.
Линеаризация (Fast Web View)Линеаризация, продвигаемая Adobe под названием Fast Web View, — это способ переупорядочить внутренний порядок байтов PDF так, чтобы его можно было показать до того, как придёт весь файл. В обычном PDF таблица перекрёстных ссылок, индексирующая каждый объект, лежит в самом конце, поэтому просмотрщику технически нужен полный файл, чтобы понять, где что находится.
Безопасность
AES (Advanced Encryption Standard) — это блочный шифр, защищающий PDF, закрытый паролем. Когда вы запираете документ, потоки и строки содержимого страниц шифруются с помощью AES, и единственный путь обратно к читаемым байтам — указать верный пароль и вывести из него правильный ключ. Без него файл на диске — просто шифртекст.
Электронная подписьЭлектронная подпись в самом широком юридическом смысле — это любые данные, прикреплённые к документу и выражающие намерение подписанта согласиться: от набранного имени или нарисованной закорючки до криптографически подкреплённой печати. Регламент ЕС eIDAS делит их на уровни, и это различие важно, когда подписи позже придётся устоять под проверкой.
Цифровая подписьЦифровая подпись — это криптографический механизм, доказывающий, кто подписал PDF и что с тех пор никто его не изменял. Это технический движок, на который опираются самые надёжные электронные подписи, и построен он на криптографии с открытым ключом, а не на каком-либо изображении росчерка пера.
Изображения
Векторная графика описывает изображение как математику — точки, линии, кривые и заливки, — а не как фиксированную сетку цветных точек. Окружность хранится как центр, радиус и цвет, поэтому компьютер перерисовывает её в любом запрошенном размере. Отсюда определяющее свойство векторной графики: она масштабируется до любого размера без потери чёткости.
Растровое изображениеРастровое изображение — это прямоугольная сетка пикселей, каждый из которых хранит значение цвета; такова модель за каждой фотографией и каждым сканом. В отличие от вектора, у растра фиксированное собственное разрешение: он хранит ровно столько-то точек по ширине и высоте, и вся его детализация запечена в эту сетку.
JPG / JPEGJPG (он же JPEG, по названию Joint Photographic Experts Group, который его определил) — это растровый формат с потерями, созданный для фотографий. Он работает, преобразуя изображение в частотные составляющие и отбрасывая мелкие детали, которые человеческий глаз заметит с наименьшей вероятностью, — так он впихивает полноцветную фотографию в небольшой файл.
PNGPNG (Portable Network Graphics) — это растровый формат без потерь для графики с резкими краями и плоским цветом: скриншотов, логотипов, значков, схем и всего, что содержит текст. Без потерь значит, что он хранит изображение в точности: пересохраняйте его сколько угодно — и ни один пиксель не изменится; полная противоположность поколенческому угасанию JPEG.
WebPWebP — это формат изображений от Google, цель которого — заменить и JPEG, и PNG одним контейнером. Его приём — поддержка двух режимов: сжатие с потерями для фотографий, как у JPEG, и без потерь для графики, как у PNG, при этом обычно давая файлы меньше любого из них при сопоставимом качестве.
TIFFTIFF (Tagged Image File Format) — это тяжеловесный растровый формат, применяемый в архивировании, сканировании и профессиональной обработке изображений. Его название идёт от устройства: гибкий набор тегов, описывающих изображение, позволяет одному TIFF хранить несжатые или сжатые без потерь данные, высокую разрядность, встроенные цветовые профили и изрядное количество технических метаданных.
SVGSVG (Scalable Vector Graphics) — это открытый векторный формат на основе XML, изображение, записанное как читаемый текст, описывающий формы, контуры, цвета и текст. Поскольку он векторный, он масштабируется до любого размера с идеально резкими краями, а поскольку это XML, его можно стилизовать через CSS, анимировать и даже искать или редактировать в обычном текстовом редакторе.
DPI (точек на дюйм)DPI (dots per inch, точек на дюйм) измеряет разрешение — сколько точек детализации упаковано в каждый дюйм изображения или отпечатка. Чем выше число, тем тоньше детали и тем крупнее файл. Это та единственная настройка, что чаще всего решает, будет ли скан или экспорт выглядеть резко или разочаровывающе.