OCR

OCR（Optical Character Recognition、光学文字認識）は、テキストの画像を、実際に選択できる文字へと変えます。スキャンされたページや文書の写真は、コンピューターにとってはただのピクセルの格子です。そこにテキストはなく、たまたま言葉のように見える画像があるだけです。OCRは文字の形を解析し、その背後にある文字列を復元します。

結果は通常、元の画像のちょうど上に重なる見えないテキスト層として書き戻されます。そのためページはスキャンのままに見えますが、検索でき、コピーでき、索引付けできるようになります。最新のエンジンは複数の言語、段組み、表を扱い、精度は元の解像度に大きく左右されます。きれいな300 DPIのスキャンは、ぼやけた携帯の写真よりはるかによく認識されます。ブラウザ上のツールの多くが土台にしているのが、オープンソースのエンジンTesseractです。

OCRは請求書、契約書、身分証明書といった機微な書類にかけられることが多いため、どこで処理されるかは実際にプライバシーの問題です。reader.meはブラウザ内のWebAssemblyで認識を実行するので、ページの画像とそこから生成されるテキストは端末にとどまり、サーバーに読み取らせるためにどこかへ送られることはありません。