AIはあなたのPDFをどう読むのか(そしてなぜ抽出可能なテキストが重要なのか)
AIや検索エンジンは、PDFの中に本物のテキストを必要とします。テキストの「絵」ではありません。その違いと、正しく読まれるようファイルを準備する方法を解説します。
PDFをAIツールに貼り付けて要約を頼む。ときには鋭い答えが返ってきます。ときには意味不明な内容か、そっけない「このファイルは読めません」が返ってきます。同じツール、同じプロンプト。違いの原因は、ほとんどの場合AIではありません。PDFなのです。
PDFは、見た目どおりとは限らない
2つのPDFを並べて開くと、画面上ではまったく同じに見えることがあります。その内側では、まったく異なる2つの方法で作られている可能性があります。
一方にはテキストレイヤーがあります。文書エディタ、ブラウザ、請求書アプリ、何であれデジタルなものから書き出されたものです。文字は文字データとして保存されています。ファイルは「合計」という語が右下にあることを知っています。選択でき、コピーでき、検索できます。
もう一方はページの絵です。誰かが紙をスキャンするか、スマートフォンで写真を撮り、その画像をPDFの中に保存したのです。あなたの目には問題なく読めます。ソフトウェアにとっては、文字の形をしたピクセルの格子であり、その中に文字は1つもありません。選択するものがない。検索するものがない。
簡単なテスト: 単語の上をカーソルでなぞってみてください。ハイライトされれば、テキストは本物です。画像をつかんだときのようにページ全体に箱が表示されれば、それはスキャンです。
AIが実際に見ているもの
ここが、人々が見落とす部分です。ほとんどの言語モデルは、PDFのテキストレイヤーを抜き出すことでそれを読みます。それが安価で、速く、正確な経路であり、多くのツールで既定で動作する経路です。テキストレイヤーがそこにあれば、モデルはきれいな単語を受け取り、良い答えを返します。
テキストレイヤーがなければ、モデルはその経路から何も得られません。契約書の写真は、文字を1つも渡しません。一部のツールはそこで画像をビジョン処理にかける方式に切り替えます。それは機能することもありますが、より遅く、より高コストで、雑なスキャンを推測で読みます。多くのツールはその代替手段を省き、単にファイルが空だと告げます。
ですから、あなたのPDFに関するAIの答えの質は、しばしば1つのことに行き着きます。読むべき本物のテキストがあったのか、それともモデルは絵に目を凝らさねばならなかったのか。
検索エンジンも同じことをする
これはAIだけの問題ではありません。検索エンジンがあなたのサイト上のPDFをインデックスするとき、それはテキストレイヤーを読みます。テキストレイヤーのないスキャンされたパンフレットは、検索エンジンにとってほぼ不可視です。インデックスするものが何もないため、そのページは何の検索でも上位に出ないかもしれません。選択可能なテキスト、見出し、理にかなった読み順を備えたPDFは、きちんとインデックスされ、中身を誰かが検索したときに実際に表示されうるのです。
スクリーンリーダーも同じレイヤーから動作します。支援ソフトウェアを使う視覚障害のあるユーザーは、PDFが露出するテキストを耳で聞きます。純粋な画像は何も露出しないため、沈黙を読み上げます。構造を備えた本物のテキストこそが、スクリーンリーダーを使う人にとっても、大規模に読み取る機械にとっても、その文書を機能させるものです。同じ修正で、2つの利用者層が救われます。
「よく作られている」とは何を意味するのか
AIにも、検索にも、スクリーンリーダーにもよく読まれるPDFには、3つのものが備わっている傾向があります。
本物の、選択可能なテキスト。 デジタル生まれのファイルは既にこれを持っています。スキャンは、修正するまで持っていません。
構造。 見出しは見出しとしてマークされ、論理的な読み順があり、表は実際に表になっている。これが、モデルやスクリーンリーダーが、ばらばらの単語の壁を相手にする代わりに、文書を順にたどれるようにするものです。
時間を超えた安定性。 PDF/Aファイルはフォントを埋め込み、外部依存を排除します。そのため、まだ存在しないソフトウェアでも、何年も先までテキストが抽出可能なまま保たれます。アーカイブに好適で、後で機械に読ませたいあらゆるものに好適です。
AIに読ませるためにPDFを修正する方法
あなたのファイルがデジタル生まれで、既にテキストを選択できるなら、それで完了です。問題なく読まれます。作業が始まるのは、テキストが画像の中に閉じ込められているときだけです。
スキャンされた文書には、OCRを実行します。光学文字認識は絵を見て、文字の形を見つけ、本物のテキストをPDFの中へ書き戻します。画像の背後、あなたには見えない場所へ収められます。ページの見た目は同じです。傾いた角度もコーヒーの染みもそのまま残ります。しかし今や下にはテキストレイヤーがあり、AIはそれを読め、検索はインデックスでき、スクリーンリーダーは読み上げられます。それはPDFをOCR処理するだけで行えます。
PDFから単語だけを取り出して、モデルやメール、メモアプリに貼り付けたいだけなら、PDFからテキストを抽出するツールでテキストを直接抜き出してください。内容がプレーンテキストとして手に入り、必要なものへすぐ渡せます。
どちらもreader.meのあなたのブラウザ内で動作します。PDFは決してアップロードされません。ここではそれが普段以上に重要です。なぜなら、人々が最もAIに読ませたい書類は、たいてい私的なものだからです。契約書、診断書、明細書、氏名と番号が載ったあらゆるもの。それらを機械可読にするために他人のサーバーへ送るのは、奇妙な取引です。reader.meでは、それを省けます。ページが作業を行い、ファイルはあなたのマシン上に留まります。
要するに
AIと検索は、あなたが見るようにはPDFを見ていません。それらはテキストレイヤーを読みます。そのレイヤーが存在すれば、良い答えと適切なインデックスが得られます。存在しなければ、推測か沈黙が返ってきます。デジタル生まれのファイルは既にそれを持っています。スキャンにはOCRが必要です。いずれにせよ修正は1分で済み、reader.meでは、あなたのファイルが手元を離れることなくそれが行われます。