PDF用語集

PDF用語集：用語と形式

PDFのあらゆる用語と形式が実際に何を意味するのかを、平易な言葉で。出くわす専門用語を解説します。

形式

PDF（Portable Document Format）は、ページ上のすべての文字、線、画像の正確な位置を固定するファイル形式です。そのため、スマートフォンで開いても、ノートパソコンで開いても、印刷所のRIPで処理しても、文書はまったく同じ見た目になります。Adobeが1993年に作り、2008年に仕様をISOに引き渡した結果、オープン標準ISO 32000となりました。この開放性こそが、多くの独立したツールが誰の許可も得ずにPDFを読み書きできる理由です。

PDF/A

PDF/Aは、長期保存のために作られたISO 19005のプロファイルです。目的はシンプルで、50年後に開いた文書が今日とまったく同じように表示され、フォントが欠けることも、消えてしまうかもしれない外部リソースに依存することもない、という状態を保証することです。それを実現するため、この標準は時間とともに壊れうるものをすべて禁止しています。

PDF/UA

PDF/UA（ISO 14289、UAはUniversal Accessibilityの略）は、支援技術に頼る人々がPDFを使えるようにする標準です。スクリーンリーダーは、ページ上のインクそのものを理解できません。その下に論理的な構造が必要です。PDF/UAは、その構造をどう作るべきかを正確に定義します。

PDF/X

PDF/X（ISO 15930）は、商業印刷とグラフィックアートのために作られたプロファイル群です。ファイルが商業印刷に回るとき、曖昧さは高くつきます。フォントの欠落、CMYKが期待される場所のRGB画像、未定義のトリムボックスは、印刷一回分を丸ごと台無しにしかねません。PDF/Xは、印刷に決定的なすべての詳細を明示させることで、その曖昧さを取り除きます。

概念

OCR

OCR（Optical Character Recognition、光学文字認識）は、テキストの画像を、実際に選択できる文字へと変えます。スキャンされたページや文書の写真は、コンピューターにとってはただのピクセルの格子です。そこにテキストはなく、たまたま言葉のように見える画像があるだけです。OCRは文字の形を解析し、その背後にある文字列を復元します。

AcroForm

AcroFormは、PDFにもとから備わっている標準のフォーム技術で、1990年代後半からこの形式の一部であり続けてきた種類のインタラクティブなフォームです。確定申告書や申請書で目にする入力可能なフィールド、つまりテキストボックス、チェックボックス、ラジオボタン、ドロップダウン、署名フィールドは、PDFのオブジェクト構造の中に直接定義されたAcroFormオブジェクトです。

XFA

XFA（XML Forms Architecture）はAdobeの代替フォーム技術で、フォームをPDFネイティブのオブジェクトではなく、PDFという包みの中に埋め込まれたXMLのデータで定義します。複雑で動的なフォームのために設計されました。行を追加すると伸びるレイアウト、前の回答に応じて現れたり消えたりするフィールド、バックエンドのデータスキーマとの緊密な連携などです。

メタデータ

メタデータとは、データについてのデータ、つまりPDFが見えるページの内容を超えて持っている情報のことです。主な保管場所は2つあります。従来のDocument Information Dictionary（タイトル、作成者、件名、キーワード、作成に使ったソフトウェア、作成日と更新日）と、同じ項目に加えてより豊かで拡張可能なプロパティを保持するXMLベースのブロックであるXMPです。

圧縮

圧縮は、PDFのファイルサイズを扱いやすく保つものです。1つの文書はたいてい複数の種類の内容を混ぜているため、複数の方式を併用します。テキストやベクター描画の命令は、Flate（ZIPの背後にあるのと同じDeflateアルゴリズム）で可逆的に圧縮され、すべての文字は入れたときのまま正確に戻ってきます。

埋め込みフォント

埋め込みフォントとは、開く側のコンピューターから借りるのではなく、PDFそのものの中に同梱された書体のことです。これこそがPDFを本当に持ち運び可能にしている機能です。フォントが文書とともに運ばれれば、その書体を一度もインストールしたことのないマシンでも、テキストはどこでも同じように表示されます。

テキスト層

テキスト層とは、PDFのうち、本物の機械可読な文字を保持している部分です。カーソルで選択でき、コピーでき、検索でき、読み上げさせられる内容のことです。ワープロやページレイアウトのアプリから作られたPDFは、各文字が位置とフォントに対応づけられた状態で、この層をもとから持っています。

透かし

透かしとは、状態や所有権を示すためにPDFのページの上に重ねられたテキストや画像のことです。ページを斜めに横切る薄いDRAFTやCONFIDENTIALの文字、会社のロゴ、著作権表示などです。下にある内容を覆い隠さずに意図を伝えるもので、ふつうは半透明であるか、本文の後ろに置かれます。

線形化

線形化は、Adobeがファストウェブビューという名で売り出してきたもので、PDFの内部のバイト順序を並べ替えて、ファイル全体が届く前に表示できるようにする方法です。通常のPDFでは、すべてのオブジェクトを索引するクロスリファレンステーブルがいちばん最後に置かれているため、ビューアは技術的にはどこに何があるかを知るのに完全なファイルが必要です。

セキュリティ

AES暗号化

AES（Advanced Encryption Standard）は、パスワード保護されたPDFを守るブロック暗号です。文書をロックすると、ページの内容のストリームと文字列がAESで暗号化され、読めるバイト列に戻る唯一の方法は、正しいパスワードを与えて正しい鍵を導き出すことだけになります。それがなければ、ディスク上のファイルはただの暗号文です。

電子署名

電子署名とは、最も広い法的な意味では、署名者が同意する意思を示すために文書に付けられたあらゆるデータのことです。入力した名前や手書きの走り書きから、暗号で裏打ちされた封印まで含まれます。EUのeIDAS規則はこれらを段階に分けており、その区別は、署名がのちに有効性を問われるときに意味を持ちます。

デジタル署名

デジタル署名は、誰がPDFに署名したか、そしてそれ以降誰も改ざんしていないことを証明する暗号的な仕組みです。最も強い電子署名が頼りにしている技術的なエンジンであり、ペンのひと筆の画像ではなく、公開鍵暗号から作られています。

画像

ベクター

ベクターグラフィックスは、画像を、色のついた点の固定された格子としてではなく、数学、つまり点、線、曲線、塗りとして記述します。円は中心、半径、色として保存されるので、コンピューターは求められたどんなサイズでもそれを描き直します。その結果が、ベクターアートの決定的な性質です。どんなサイズに拡大しても鮮明さを失いません。

ラスター

ラスター画像は、それぞれが色の値を持つピクセルの長方形の格子で、あらゆる写真とスキャンの背後にあるモデルです。ベクターと違って、ラスターは固定された固有の解像度を持ちます。横と縦に正確に何ドットという形で保存され、その細部はすべてその格子に焼き付けられています。

JPG

JPG（定義したJoint Photographic Experts GroupにちなんでJPEGとも書きます）は、写真のために作られた非可逆のラスター形式です。画像を周波数成分に変換し、人の目が最も見落としやすい細部を捨てることで動きます。こうしてフルカラーの写真を小さなファイルに押し込めます。

PNG

PNG（Portable Network Graphics）は、鋭い縁とべた塗りの色を持つグラフィック、つまりスクリーンショット、ロゴ、アイコン、図、そしてテキストを含むあらゆるもののための可逆のラスター形式です。可逆とは、画像を正確に保存するということです。何度再保存しても1ピクセルも変わりません。JPEGの世代的な劣化とは正反対です。

WebP

WebPはGoogleの画像形式で、JPEGとPNGの両方を1つのコンテナで置き換えることを目指しています。その妙技は2つのモードに対応することです。JPEGのように写真向けの非可逆圧縮、PNGのようにグラフィック向けの可逆圧縮で、同等の品質ならどちらよりも小さいファイルになるのがふつうです。

TIFF

TIFF（Tagged Image File Format）は、保存、スキャン、プロ向けのイメージングで使われる重量級のラスター形式です。その名は構造に由来します。画像を記述する柔軟なタグの集まりであり、これによって1つのTIFFが、無圧縮または可逆圧縮のデータ、高いビット深度、埋め込みのカラープロファイル、そして大量の技術的なメタデータを保持できます。

SVG

SVG（Scalable Vector Graphics）は、オープンでXMLベースのベクター形式で、形、パス、色、テキストを記述する読めるテキストとして書かれた画像です。ベクターなので、どんなサイズにも完璧に鋭い縁で拡大でき、XMLなので、CSSでスタイルを当て、アニメーションさせ、さらにはふつうのテキストエディタで検索や編集さえできます。

DPI

DPI（dots per inch、1インチあたりのドット数）は解像度を測るもので、画像や印刷の1インチごとにどれだけの細部のドットが詰め込まれているかを表します。数値が高いほど細部が細かくなり、ファイルは大きくなります。スキャンや書き出しが鮮明に見えるか期待外れに見えるかを、最もよく左右する単一の設定です。