PDF 詞彙表
PDF 詞彙表:術語與格式
每個 PDF 術語與格式實際的意思,用淺白的語言說清楚。你會遇到的行話,一一解釋。
格式
PDF(Portable Document Format,可攜式文件格式)是一種會固定每個字元、線條與圖片在頁面上確切位置的檔案格式,因此無論你在手機、筆電還是印刷廠的 RIP 上開啟,文件看起來都完全一致。Adobe 在 1993 年創造了它,並於 2008 年將規格交給 ISO,成為開放標準 ISO 32000。正是這份開放性,讓眾多獨立工具不必經過任何人許可,就能讀寫 PDF。
PDF/APDF/A 是為長期封存而打造的 ISO 19005 規範。目標很簡單:一份在五十年後開啟的文件,應該和今天呈現得一模一樣,沒有遺失的字型,也不依賴可能早已消失的外部資源。為了保證這一點,這項標準禁止任何可能隨時間損壞的東西。
PDF/UAPDF/UA(ISO 14289,其中 UA 代表 Universal Accessibility,通用無障礙)是讓仰賴輔助科技的人能夠使用 PDF 的標準。螢幕報讀器無法理解頁面上的墨跡,它需要底層有一套邏輯結構。PDF/UA 正是精確定義這套結構該如何建立。
PDF/XPDF/X(ISO 15930)是為專業印刷與平面藝術打造的規範家族。當一份檔案送往商業印刷時,模稜兩可代價高昂:遺失的字型、本該是 CMYK 卻出現 RGB 的影像,或是未定義的裁切框,都可能毀掉一整批印件。PDF/X 透過強制讓每一項對印刷至關重要的細節都明確指定,來消除這種模糊。
概念
OCR(Optical Character Recognition,光學字元辨識)會把文字的圖片,變成真正可選取的字元。一頁掃描檔或一張文件照片,對電腦來說只是一格格的像素:裡面沒有文字,只有一張剛好看起來像文字的圖片。OCR 會分析字母的形狀,重建底下那串字元。
AcroFormAcroForm 是 PDF 原生內建的表單技術,也就是自 1990 年代末就成為這個格式一部分的那種互動式表單。你在報稅表或申請表上看到的可填寫欄位,包括文字方塊、核取方塊、單選按鈕、下拉選單與簽名欄位,都是直接定義在 PDF 物件結構中的 AcroForm 物件。
XFAXFA(XML Forms Architecture,XML 表單架構)是 Adobe 的另一套表單技術,其中表單並非由原生 PDF 物件定義,而是由嵌在 PDF 外殼內的一段 XML 內容來定義。它是為複雜的動態表單而設計的:會隨著你新增列而增長的版面、依先前作答而出現或消失的欄位,以及與後端資料結構的緊密綁定。
中繼資料中繼資料是關於你資料的資料,也就是一份 PDF 在可見的頁面內容之外所帶著的資訊。主要有兩個儲存處:傳統的文件資訊字典(標題、作者、主旨、關鍵字、建立它的軟體,以及建立與修改日期)以及 XMP,那是一段以 XML 為基礎的區塊,存放相同的欄位,外加更豐富、可擴充的屬性。
壓縮壓縮讓 PDF 的檔案大小維持在可控範圍,而單一文件通常會混用好幾種方法,因為它混合了好幾種內容。文字與向量繪圖指令以 Flate(與 ZIP 背後相同的 Deflate 演算法)無損壓縮,因此每個字元出來時都和進去時分毫不差。
嵌入字型嵌入字型是打包在 PDF 本身之內的字體,而非向開啟它的電腦借用。這正是讓 PDF 真正具備可攜性的功能:如果字型隨文件一同移動,文字無論在哪裡都會完全相同地呈現,即使是一台從未安裝過那套字體的機器也一樣。
文字層文字層是 PDF 中存放真正、機器可讀字元的部分,也就是你能用游標選取、複製、搜尋並朗讀出來的內容。一份由文字處理器或排版應用程式建立的 PDF,原生就帶有這一層,每個字元都對應到一個位置與一種字型。
浮水印浮水印是疊在 PDF 頁面上、用以標示狀態或所有權的文字或圖片,可能是一個斜斜橫過頁面的淡淡「草稿」或「機密」字樣、一個公司標誌,或一行版權聲明。它在不遮蔽底層內容的情況下傳達意圖,通常做法是半透明,或位於主要文字的後方。
線性化線性化,被 Adobe 行銷為快速網頁檢視(Fast Web View),是一種重新編排 PDF 內部位元組順序的方式,好讓它在整個檔案抵達之前就能顯示。在一般的 PDF 中,索引每個物件的交叉參照表位於最末端,因此檢視器技術上需要完整的檔案,才能知道東西在哪裡。
安全
AES(Advanced Encryption Standard,進階加密標準)是保護以密碼加密的 PDF 的區塊密碼。當你鎖住一份文件時,頁面內容串流與字串會以 AES 加密,要回到可讀的位元組,唯一的辦法就是提供正確的密碼並推導出正確的金鑰。少了它,磁碟上的檔案就只是密文。
電子簽章在最廣義的法律意義上,電子簽章是附加於文件、用以表明簽署者同意意願的任何資料,從打字輸入的姓名或手繪的塗鴉,到有密碼學支撐的封印都算。歐盟的 eIDAS 規範把這些分成不同層級,而當一份簽章日後必須站得住腳時,這個區別就很重要。
數位簽章數位簽章是用以證明誰簽署了一份 PDF、並證明自簽署後無人更動過它的密碼學機制。它是最強的那類電子簽章所仰賴的技術引擎,建立在公開金鑰密碼學之上,而非任何一筆筆畫的圖像。
影像
向量圖形以數學來描述一張影像,用的是點、線、曲線與填色,而非固定的彩色點陣格。一個圓被儲存為一個圓心、一個半徑與一種顏色,因此電腦會依被要求的任何尺寸重新繪製它。其結果便是向量美術的決定性特質:它能縮放到任何尺寸而毫無銳利度的損失。
點陣點陣影像是一格格的矩形像素格,每一格存放一個顏色值,是每一張照片與掃描檔背後的模型。與向量不同,點陣有一個固定的原生解析度:它精確地儲存橫向與縱向各有多少點,而它所有的細節都被烘焙進那個格網裡。
JPGJPG(也寫作 JPEG,得名自定義它的 Joint Photographic Experts Group)是為照片打造的有損點陣格式。它的做法是把影像轉換成頻率成分,丟棄人眼最不容易察覺的細微細節,這就是它如何把一張全彩照片擠進一個小檔案。
PNGPNG(Portable Network Graphics,可攜式網路圖形)是用於銳利邊緣與扁平色彩圖形的無損點陣格式,適合螢幕截圖、標誌、圖示、示意圖,以及任何含有文字的內容。無損意味著它精確地儲存影像:你想重新儲存幾次都行,沒有任何一個像素會改變,與 JPEG 逐代衰退恰恰相反。
WebPWebP 是一種來自 Google 的影像格式,目標是用單一容器同時取代 JPEG 與 PNG。它的訣竅是支援兩種模式:用於照片的有損壓縮(像 JPEG),以及用於圖形的無損壓縮(像 PNG),而在相當的品質下,通常產生比兩者都更小的檔案。
TIFFTIFF(Tagged Image File Format,標籤影像檔案格式)是用於封存、掃描與專業影像處理的重量級點陣格式。它的名字來自它的結構:一組描述影像的彈性標籤,讓單一份 TIFF 能容納未壓縮或無損壓縮的資料、高位元深度、嵌入的色彩描述檔,以及大量的技術中繼資料。
SVGSVG(Scalable Vector Graphics,可縮放向量圖形)是一種開放、以 XML 為基礎的向量格式,是一張以可讀文字寫成的影像,描述著形狀、路徑、顏色與文字。因為它是向量,它能縮放到任何尺寸而邊緣完美俐落;又因為它是 XML,它能用 CSS 設定樣式、製作動畫,甚至在純文字編輯器中搜尋或編輯。
DPIDPI(dots per inch,每英吋點數)衡量解析度,也就是有多少細節的點被塞進影像或印件的每一英吋裡。數字越高,細節越細緻,檔案也越大。它是最常決定一份掃描或匯出看起來俐落還是令人失望的那個單一設定。