OCR

OCR(Optical Character Recognition, 광학 문자 인식)는 텍스트의 그림을 실제로 선택할 수 있는 문자로 바꿉니다. 스캔한 페이지나 문서 사진은 컴퓨터에게는 그저 픽셀의 격자일 뿐입니다. 그 안에 텍스트는 없고 마침 글자처럼 보이는 이미지가 있을 뿐입니다. OCR는 글자의 모양을 분석해 그 밑에 깔린 문자열을 다시 만들어 냅니다.

결과는 보통 원본 이미지 바로 위에 정확히 겹치는 보이지 않는 텍스트 계층으로 기록됩니다. 그래서 페이지는 여전히 스캔본처럼 보이지만 이제 검색하고 복사하고 색인할 수 있습니다. 현대의 엔진은 여러 언어와 단 구성, 표를 처리하며, 정확도는 원본 해상도에 크게 좌우됩니다. 깨끗한 300 DPI 스캔이 흐릿한 휴대폰 사진보다 훨씬 잘 인식됩니다. 오픈 소스 엔진인 Tesseract는 브라우저 기반 도구 대부분이 토대로 삼는 엔진입니다.

OCR는 종종 송장이나 계약서, 신분증 같은 민감한 서류를 다루기 때문에 어디에서 처리되는지가 실제 개인정보 문제입니다. reader.me는 브라우저 안에서 WebAssembly로 인식을 실행하므로 페이지 이미지와 거기서 나온 텍스트가 기기에 머물고, 서버가 읽도록 어디에도 전송되지 않습니다.