텍스트 계층

텍스트 계층은 PDF에서 실제의, 기계가 읽을 수 있는 문자를 담는 부분입니다. 커서로 선택하고 복사하고 검색하고 소리 내어 읽게 할 수 있는 콘텐츠 말입니다. 워드프로세서나 페이지 레이아웃 앱으로 만든 PDF는 각 문자가 위치와 폰트에 대응되어 이 계층을 처음부터 갖고 있습니다.

대비되는 것이 스캔한 PDF인데, 이는 흔히 PDF 포장지로 감싼 페이지 그림일 뿐입니다. 문서처럼 보이지만 그 아래에 텍스트가 없어서 검색해도 아무것도 못 찾고 선택해도 아무것도 잡히지 않습니다. OCR가 그 빠진 계층을 더해 줍니다. 이미지 속 문자를 인식해 보이는 픽셀에 정렬된 보이지 않는 텍스트 계층으로 다시 써 넣어, 페이지는 그대로 보이게 하면서 완전히 검색 가능하게 만듭니다.

파일에 진짜 텍스트 계층이 있는지 아는 것은 왜 어떤 PDF는 검색되고 다른 것은 안 되는지 같은 일상의 답답함을 많이 설명해 줍니다. 그 계층이 필요할 때 로컬에서 생성하면, 문서의 단어가 보관할 수도 있는 원격 서비스로 넘어가는 대신 자신의 기기에서 추출됩니다.