文本层
文本层是 PDF 中保存真正的、机器可读字符的那一部分——就是你能用光标选中、复制、搜索并朗读出来的内容。从文字处理器或排版应用生成的 PDF 天生就有这一层,每个字符都映射到一个位置和一种字体。
与之相对的是扫描的 PDF,它往往只是一张被包进 PDF 外壳里的页面图片。它看起来像文档,但底下没有文字,因此搜索什么也找不到,选取什么也抓不住。OCR 正是用来补上这缺失一层的:它识别图像中的字符,并把它们写回为一层不可见、与可见像素对齐的文本层,让页面外观不变,却变得完全可搜索。
知道一个文件是否拥有真正的文本层,能解释许多日常的挫败——为什么一份 PDF 可搜索而另一份不行。当你需要这一层时,在本地生成它意味着文档的文字是在你自己的机器上被提取的,而不是交给可能保留它们的远程服务。