文本层

文本层是 PDF 中保存真正的、机器可读字符的那一部分——就是你能用光标选中、复制、搜索并朗读出来的内容。从文字处理器或排版应用生成的 PDF 天生就有这一层，每个字符都映射到一个位置和一种字体。

与之相对的是扫描的 PDF，它往往只是一张被包进 PDF 外壳里的页面图片。它看起来像文档，但底下没有文字，因此搜索什么也找不到，选取什么也抓不住。OCR 正是用来补上这缺失一层的：它识别图像中的字符，并把它们写回为一层不可见、与可见像素对齐的文本层，让页面外观不变，却变得完全可搜索。

知道一个文件是否拥有真正的文本层，能解释许多日常的挫败——为什么一份 PDF 可搜索而另一份不行。当你需要这一层时，在本地生成它意味着文档的文字是在你自己的机器上被提取的，而不是交给可能保留它们的远程服务。