PDF 术语表
PDF 术语表:术语与格式
每一个 PDF 术语和格式到底是什么意思,用通俗的语言讲清楚。你会遇到的那些行话,一一为你解释。
格式
PDF(便携式文档格式)是一种文件格式,它会固定页面上每一个字符、线条和图像的精确位置,因此无论你在手机、笔记本电脑还是印刷厂的 RIP 上打开,文档看起来都完全一致。Adobe 于 1993 年创建了它,并在 2008 年将规范交给 ISO,从此成为开放标准 ISO 32000。正是这种开放性,让众多独立工具无需向任何人申请许可就能读写 PDF。
PDF/APDF/A 是为长期归档而制定的 ISO 19005 规范。目标很简单:五十年后打开的文档,应当与今天的呈现完全一致,没有缺失的字体,也不依赖那些可能早已消失的外部资源。为了保证这一点,该标准禁止任何可能随时间损坏的东西。
PDF/UAPDF/UA(ISO 14289,其中 UA 代表通用无障碍)是让依赖辅助技术的人能够使用 PDF 的标准。屏幕阅读器无法理解页面上的墨迹,它需要底层有一个逻辑结构。PDF/UA 精确定义了这一结构必须如何构建。
PDF/XPDF/X(ISO 15930)是为专业印刷和图文艺术而制定的一系列规范。当一份文件送去商业印刷时,任何含糊都代价高昂:一种缺失的字体、一张本应是 CMYK 却用了 RGB 的图像,或一个未定义的裁切框,都可能毁掉整次印刷。PDF/X 通过强制让每一个对印刷至关重要的细节都明确无误,来消除这种含糊。
概念
OCR(光学字符识别)把文字的图像变成真正可选中的字符。一张扫描页或一张文档照片,对计算机来说只是一格格像素:里面没有文字,只有一幅恰好看起来像文字的图像。OCR 分析字母的形状,重建出底层的字符串。
AcroFormAcroForm 是 PDF 原生、内建的表单技术,自 1990 年代末起就是这一格式的一部分,就是你在报税表或申请表里见到的那种可填写的交互式表单。你看到的可填写字段——文本框、复选框、单选按钮、下拉框和签名字段——都是直接定义在 PDF 对象结构中的 AcroForm 对象。
XFAXFA(XML 表单架构)是 Adobe 的另一种表单技术,其中表单不是由原生 PDF 对象定义,而是由嵌入在 PDF 外壳内的一段 XML 负载定义。它是为复杂、动态的表单而设计的:随你添加行数而增长的版式、根据前面答案出现或消失的字段,以及与后端数据架构的紧密绑定。
元数据元数据是关于你数据的数据,是 PDF 在可见页面内容之外所携带的信息。主要有两处存放点:传统的文档信息字典(标题、作者、主题、关键词、创建它的软件,以及创建和修改日期),以及 XMP——一段基于 XML 的区块,它保存相同的字段,外加更丰富、可扩展的属性。
压缩压缩是让 PDF 文件大小保持可控的手段,而单份文档通常会混用多种方法,因为它混合了多种内容。文本和矢量绘图指令以 Flate(与 ZIP 背后相同的 Deflate 算法)无损压缩,因此每个字符进去什么样、出来还是什么样。
嵌入字体嵌入字体是打包在 PDF 自身内部的字体,而不是从打开它的那台计算机借来的。正是这项特性让 PDF 真正可移植:如果字体随文档一起走,文字在任何地方都呈现一致,哪怕在一台从未安装过该字体的机器上也是如此。
文本层文本层是 PDF 中保存真正的、机器可读字符的那一部分——就是你能用光标选中、复制、搜索并朗读出来的内容。从文字处理器或排版应用生成的 PDF 天生就有这一层,每个字符都映射到一个位置和一种字体。
水印水印是叠加在 PDF 页面上、用以标示状态或归属的文字或图像——一行淡淡地斜跨页面的「草稿」或「机密」、一个公司徽标,或一行版权说明。它在不遮蔽底层内容的前提下传达意图,通常做法是半透明,或置于正文之后。
线性化线性化,被 Adobe 作为「快速 Web 查看」营销,是一种重新组织 PDF 内部字节顺序的方法,使它能在整个文件还没到齐之前就开始显示。在普通的 PDF 中,那张索引每个对象的交叉引用表位于最末尾,因此查看器从技术上说需要完整的文件才能知道东西都在哪里。
安全
AES(高级加密标准)是为密码保护的 PDF 提供安全保障的分组密码。当你锁定一份文档时,页面内容流和字符串会用 AES 加密,要回到可读的字节,唯一的途径就是提供正确的密码并推导出正确的密钥。没有它,磁盘上的文件只是一堆密文。
电子签名在最广义的法律意义上,电子签名是附加在文档上、表明签署人同意意图的任何数据——从打出来的名字或随手画的曲线,一直到有密码学支撑的印章。欧盟的 eIDAS 法规将其分为若干层级,而当一份签名日后需要经得起检验时,这种区分就很重要。
数字签名数字签名是用来证明谁签署了 PDF、且此后无人改动过它的密码学机制。它是最强的电子签名所依赖的技术引擎,建立在公钥密码学之上,而非任何笔迹的图像。
图像
矢量图形用数学——点、线、曲线和填充——来描述一幅图像,而不是用一格格固定的彩色点。一个圆被存储为一个圆心、一个半径和一种颜色,因此计算机会按所要求的任意尺寸重新绘制它。其结果就是矢量艺术的决定性特性:它可以缩放到任何尺寸而不损失清晰度。
栅格图像栅格图像是一格格像素组成的矩形网格,每个像素持有一个颜色值——这是每一张照片和扫描件背后的模型。与矢量不同,栅格有一个固定的原生分辨率:它精确地存储横向和纵向有多少个点,它的全部细节都被烘焙进了那张网格。
JPGJPG(也写作 JPEG,得名于定义它的联合图像专家组)是为照片打造的有损栅格格式。它的工作方式是把图像变换成频率分量,再丢弃人眼最不容易察觉的精细细节,正是这样把一张全彩照片压进一个小文件。
PNGPNG(便携式网络图形)是为锐利边缘和平面色彩的图形而生的无损栅格格式——截图、徽标、图标、示意图,以及任何含有文字的东西。无损意味着它精确地存储图像:你想重新保存多少次都行,没有一个像素会改变,与 JPEG 的逐代衰减恰好相反。
WebPWebP 是来自 Google 的一种图像格式,目标是用一个容器同时取代 JPEG 和 PNG。它的窍门是支持两种模式:像 JPEG 那样对照片做有损压缩,以及像 PNG 那样对图形做无损压缩,同时在相当的质量下通常产生比两者都更小的文件。
TIFFTIFF(标签图像文件格式)是用于归档、扫描和专业成像的重量级栅格格式。它的名字来自其结构:一套灵活的、描述图像的标签,这让单个 TIFF 能够容纳未压缩或无损压缩的数据、高位深、嵌入的色彩配置文件,以及大量技术性元数据。
SVGSVG(可缩放矢量图形)是一种开放的、基于 XML 的矢量格式——一幅以可读文本写就、描述形状、路径、颜色和文字的图像。因为它是矢量的,所以缩放到任何尺寸边缘都完美锐利;又因为它是 XML,所以可以用 CSS 设置样式、做动画,甚至在纯文本编辑器里搜索或编辑。
DPIDPI(每英寸点数)衡量分辨率,即一幅图像或一份打印件的每英寸里塞进了多少个细节点。数字越高,细节越精细,文件也越大。它是最常决定一份扫描件或一份导出看起来是清爽还是令人失望的那一个设置。