文字層
文字層是 PDF 中存放真正、機器可讀字元的部分,也就是你能用游標選取、複製、搜尋並朗讀出來的內容。一份由文字處理器或排版應用程式建立的 PDF,原生就帶有這一層,每個字元都對應到一個位置與一種字型。
相對的是掃描 PDF,它往往只是一張包在 PDF 外殼裡的頁面圖片。它看起來像文件,但底下沒有文字,所以搜尋找不到任何東西,選取也抓不到任何東西。OCR 正是加上那層缺失內容的工具:它辨識圖片中的字元,再把它們寫回成一層看不見、對齊可見像素的文字,讓頁面看起來不變,卻變得完全可搜尋。
知道一份檔案是否有真正的文字層,能解釋許多日常的挫折,例如為什麼某份 PDF 可搜尋而另一份不行。當你需要那一層時,在本機產生它,意味著文件的字句是在你自己的機器上被擷取,而非交給一個可能保留它們的遠端服務。