PDF 용어집

PDF 용어집: 용어와 형식

PDF를 다루다 마주치는 모든 용어와 형식이 실제로 무엇을 뜻하는지, 쉬운 말로. 부딪히게 되는 전문 용어를 풀어 드립니다.

형식

PDF(Portable Document Format)는 페이지 위 모든 글자와 선, 이미지의 정확한 위치를 고정하는 파일 형식입니다. 그래서 휴대폰에서 열든 노트북에서 열든 인쇄소의 RIP에서 처리하든 문서가 동일하게 보입니다. Adobe가 1993년에 만들었고 2008년에 명세를 ISO에 넘겨 개방형 표준 ISO 32000이 되었습니다. 이렇게 개방되어 있기 때문에 수많은 독립 도구가 누구의 허락도 받지 않고 PDF를 읽고 쓸 수 있습니다.

PDF/A

PDF/A는 장기 보존을 위해 만들어진 ISO 19005 프로파일입니다. 목표는 단순합니다. 50년 뒤에 연 문서가 오늘과 정확히 똑같이 렌더링되어야 하고, 폰트가 빠지거나 사라졌을지 모를 외부 자원에 의존하는 일이 없어야 합니다. 이를 보장하기 위해 표준은 시간이 지나며 깨질 수 있는 모든 것을 금지합니다.

PDF/UA

PDF/UA(ISO 14289, UA는 Universal Accessibility의 약자)는 보조 기술에 의존하는 사람들이 PDF를 사용할 수 있게 만드는 표준입니다. 화면 낭독기는 페이지 위의 잉크만으로는 의미를 알 수 없고, 그 아래에 논리적 구조가 필요합니다. PDF/UA는 그 구조를 어떻게 만들어야 하는지 정확히 정의합니다.

PDF/X

PDF/X(ISO 15930)는 전문 인쇄와 그래픽 아트를 위해 만들어진 프로파일 군입니다. 파일이 상업 인쇄로 넘어갈 때 모호함은 비용이 큽니다. 빠진 폰트, CMYK가 와야 할 자리에 들어온 RGB 이미지, 정의되지 않은 재단 상자 하나가 인쇄 한 판 전체를 망칠 수 있습니다. PDF/X는 인쇄에 중요한 모든 세부 사항을 명시하도록 강제해 그 모호함을 없앱니다.

개념

OCR

OCR(Optical Character Recognition, 광학 문자 인식)는 텍스트의 그림을 실제로 선택할 수 있는 문자로 바꿉니다. 스캔한 페이지나 문서 사진은 컴퓨터에게는 그저 픽셀의 격자일 뿐입니다. 그 안에 텍스트는 없고 마침 글자처럼 보이는 이미지가 있을 뿐입니다. OCR는 글자의 모양을 분석해 그 밑에 깔린 문자열을 다시 만들어 냅니다.

AcroForm

AcroForm은 PDF의 기본 내장 양식 기술로, 1990년대 후반부터 이 형식의 일부였던 대화형 양식입니다. 세금 신고서나 신청서에서 보는 입력 가능한 필드, 즉 텍스트 상자와 체크박스, 라디오 버튼, 드롭다운, 서명 필드는 PDF의 객체 구조 안에 직접 정의된 AcroForm 객체입니다.

XFA

XFA(XML Forms Architecture)는 Adobe의 대체 양식 기술로, 양식이 기본 PDF 객체가 아니라 PDF 껍데기 안에 내장된 XML 페이로드로 정의됩니다. 복잡하고 동적인 양식을 위해 설계되었습니다. 행을 추가하면 늘어나는 레이아웃, 앞선 답변에 따라 나타나거나 사라지는 필드, 백엔드 데이터 스키마와의 긴밀한 결합 같은 것 말입니다.

메타데이터

메타데이터는 데이터에 관한 데이터, 즉 PDF가 눈에 보이는 페이지 콘텐츠 너머에 지니고 있는 정보입니다. 주요 저장소는 두 곳입니다. 제목, 작성자, 주제, 키워드, 그것을 만든 소프트웨어, 생성과 수정 날짜를 담는 레거시 문서 정보 사전과, 같은 필드에 더해 풍부하고 확장 가능한 속성을 담는 XML 기반 블록인 XMP입니다.

압축

압축은 PDF 파일 크기를 다룰 만하게 유지하는 것으로, 한 문서가 여러 종류의 콘텐츠를 섞기 때문에 보통 여러 방식을 함께 씁니다. 텍스트와 벡터 그리기 명령은 Flate(ZIP 뒤에 있는 바로 그 Deflate 알고리즘)로 무손실 압축되므로 모든 글자가 들어간 그대로 정확히 돌아옵니다.

내장 폰트

내장 폰트는 그것을 여는 컴퓨터에서 빌려 오는 대신 PDF 자체 안에 담긴 글꼴입니다. PDF를 진정으로 이식 가능하게 만드는 기능이 바로 이것입니다. 폰트가 문서와 함께 따라다니면, 그 글꼴을 한 번도 설치한 적 없는 기기에서조차 텍스트가 어디서나 동일하게 렌더링됩니다.

텍스트 계층

텍스트 계층은 PDF에서 실제의, 기계가 읽을 수 있는 문자를 담는 부분입니다. 커서로 선택하고 복사하고 검색하고 소리 내어 읽게 할 수 있는 콘텐츠 말입니다. 워드프로세서나 페이지 레이아웃 앱으로 만든 PDF는 각 문자가 위치와 폰트에 대응되어 이 계층을 처음부터 갖고 있습니다.

워터마크

워터마크는 상태나 소유권을 표시하려고 PDF 페이지 위에 얹은 텍스트나 이미지입니다. 페이지를 대각선으로 가로지르는 흐릿한 초안이나 기밀 표시, 회사 로고, 저작권 문구 같은 것입니다. 아래의 콘텐츠를 가리지 않으면서 의도를 알리며, 보통 반투명하거나 본문 뒤에 자리합니다.

선형화

Adobe가 Fast Web View로 내세우는 선형화는 PDF의 내부 바이트 순서를 재배치해 파일 전체가 도착하기 전에 표시될 수 있게 하는 방법입니다. 보통의 PDF에서는 모든 객체를 색인하는 상호 참조 테이블이 맨 끝에 있어서, 뷰어가 무엇이 어디 있는지 알려면 기술적으로 완전한 파일이 필요합니다.

보안

AES

AES(Advanced Encryption Standard)는 암호로 보호된 PDF를 지키는 블록 암호입니다. 문서를 잠그면 페이지 콘텐츠 스트림과 문자열이 AES로 암호화되고, 읽을 수 있는 바이트로 돌아가는 유일한 길은 올바른 암호를 제공해 정확한 키를 유도하는 것뿐입니다. 그것이 없으면 디스크의 파일은 그저 암호문입니다.

전자 서명

전자 서명은 가장 넓은 법적 의미에서, 서명자가 동의할 의사를 나타내며 문서에 첨부된 모든 데이터를 뜻합니다. 타이핑한 이름이나 손으로 그린 끄적임부터 암호로 뒷받침된 인장까지 포함됩니다. EU의 eIDAS 규정은 이를 등급으로 나누는데, 서명이 나중에 효력을 인정받아야 할 때 그 구분이 중요해집니다.

디지털 서명

디지털 서명은 누가 PDF에 서명했는지, 그리고 그 이후 아무도 그것을 바꾸지 않았음을 증명하는 암호학적 메커니즘입니다. 가장 강한 전자 서명이 의지하는 기술적 엔진이며, 펜 자국의 그림이 아니라 공개 키 암호로 만들어집니다.

이미지

벡터

벡터 그래픽은 이미지를 색 점의 고정된 격자가 아니라 수학, 즉 점과 선, 곡선과 채움으로 기술합니다. 원은 중심과 반지름, 색으로 저장되므로 컴퓨터가 요청받은 어떤 크기로든 다시 그립니다. 그 결과가 벡터 아트를 정의하는 속성입니다. 선명함을 잃지 않고 어떤 크기로든 확대됩니다.

래스터

래스터 이미지는 각각 색 값을 담은 픽셀의 직사각형 격자로, 모든 사진과 스캔 뒤에 있는 모델입니다. 벡터와 달리 래스터는 고정된 고유 해상도를 가집니다. 가로와 세로로 정확히 몇 개의 점을 저장하며, 모든 디테일이 그 격자에 새겨져 있습니다.

JPG

JPG(그것을 정의한 Joint Photographic Experts Group을 따라 JPEG으로도 씁니다)는 사진을 위해 만들어진 손실 래스터 형식입니다. 이미지를 주파수 성분으로 변환한 뒤 사람 눈이 가장 놓치기 쉬운 세밀한 디테일을 버리는 방식으로 작동하며, 그렇게 풀컬러 사진을 작은 파일로 짜냅니다.

PNG

PNG(Portable Network Graphics)는 또렷한 가장자리와 평면 색을 가진 그래픽을 위한 무손실 래스터 형식입니다. 스크린샷, 로고, 아이콘, 다이어그램, 그리고 텍스트를 담은 모든 것 말입니다. 무손실이란 이미지를 정확히 저장한다는 뜻입니다. 원하는 만큼 다시 저장해도 단 한 픽셀도 바뀌지 않으며, JPEG의 세대형 열화와 정반대입니다.

WebP

WebP는 Google에서 만든 이미지 형식으로, JPEG과 PNG를 하나의 컨테이너로 대체하는 것을 목표로 합니다. 비결은 두 가지 모드를 지원한다는 점입니다. JPEG처럼 사진을 위한 손실 압축과 PNG처럼 그래픽을 위한 무손실 압축을 지원하면서, 비슷한 품질에서 둘 중 어느 쪽보다도 보통 더 작은 파일을 만듭니다.

TIFF

TIFF(Tagged Image File Format)는 보관과 스캔, 전문 이미징에 쓰이는 중량급 래스터 형식입니다. 이름은 그 구조에서 왔습니다. 이미지를 기술하는 유연한 태그 집합 덕분에 하나의 TIFF가 비압축이나 무손실 압축 데이터, 높은 비트 심도, 내장 색 프로파일, 그리고 방대한 기술 메타데이터를 담을 수 있습니다.

SVG

SVG(Scalable Vector Graphics)는 개방형 XML 기반 벡터 형식으로, 모양과 경로, 색, 텍스트를 기술하는 읽을 수 있는 텍스트로 쓰인 이미지입니다. 벡터이므로 완벽하게 또렷한 가장자리로 어떤 크기로든 확대되고, XML이므로 CSS로 스타일을 입히고 애니메이션을 넣고 심지어 평범한 텍스트 편집기에서 검색하거나 편집할 수 있습니다.

DPI

DPI(dots per inch, 인치당 점 수)는 해상도를 측정합니다. 이미지나 인쇄물의 1인치마다 얼마나 많은 디테일 점이 담겨 있는지를 나타냅니다. 숫자가 높을수록 디테일이 곱고 파일이 큽니다. 스캔이나 내보내기가 또렷해 보일지 실망스러울지를 가장 자주 결정하는 단일 설정입니다.