OCR

OCR（光学字符识别）把文字的图像变成真正可选中的字符。一张扫描页或一张文档照片，对计算机来说只是一格格像素：里面没有文字，只有一幅恰好看起来像文字的图像。OCR 分析字母的形状，重建出底层的字符串。

识别结果通常被写回为一层不可见的文本层，恰好叠在原始图像之上，因此页面看起来仍像扫描件，但现在可以搜索、复制和索引了。现代引擎能处理多种语言、分栏和表格，准确度在很大程度上取决于源分辨率：一张干净的 300 DPI 扫描件的识别效果，远胜过一张模糊的手机快照。Tesseract 这一开源引擎，是大多数基于浏览器的工具所依托的基础。

由于 OCR 常常处理敏感文件——发票、合同、身份证件——它在哪里运行是一个真实的隐私问题。reader.me 用 WebAssembly 在你的浏览器内进行识别，因此页面图像和它产生的文本都留在你的设备上，绝不会被发送到任何地方交由服务器读取。