テキスト層

テキスト層とは、PDFのうち、本物の機械可読な文字を保持している部分です。カーソルで選択でき、コピーでき、検索でき、読み上げさせられる内容のことです。ワープロやページレイアウトのアプリから作られたPDFは、各文字が位置とフォントに対応づけられた状態で、この層をもとから持っています。

対照的なのがスキャンしたPDFで、これはしばしばページの画像をPDFという包みでくるんだだけのものです。文書のように見えますが、その下にテキストはないので、検索しても何も見つからず、選択しても何もつかめません。OCRは、その欠けた層を加えるものです。画像の中の文字を認識し、見えるピクセルにそろえた見えないテキスト層として書き戻し、ページの見た目はそのままに、完全に検索可能にします。

ファイルが本物のテキスト層を持っているかどうかを知ると、日常のいらだちの多く、つまりなぜあるPDFは検索でき、別のものはできないのかが説明できます。その層が必要なとき、ローカルで生成するということは、文書の言葉が、それを保持しかねないリモートのサービスに渡されるのではなく、自分のマシンで取り出されるということです。