文字層

文字層是 PDF 中存放真正、機器可讀字元的部分，也就是你能用游標選取、複製、搜尋並朗讀出來的內容。一份由文字處理器或排版應用程式建立的 PDF，原生就帶有這一層，每個字元都對應到一個位置與一種字型。

相對的是掃描 PDF，它往往只是一張包在 PDF 外殼裡的頁面圖片。它看起來像文件，但底下沒有文字，所以搜尋找不到任何東西，選取也抓不到任何東西。OCR 正是加上那層缺失內容的工具：它辨識圖片中的字元，再把它們寫回成一層看不見、對齊可見像素的文字，讓頁面看起來不變，卻變得完全可搜尋。

知道一份檔案是否有真正的文字層，能解釋許多日常的挫折，例如為什麼某份 PDF 可搜尋而另一份不行。當你需要那一層時，在本機產生它，意味著文件的字句是在你自己的機器上被擷取，而非交給一個可能保留它們的遠端服務。

相關工具