Lớp văn bản
Lớp văn bản là phần của một tệp PDF chứa những ký tự thực sự, máy đọc được, tức nội dung bạn có thể chọn bằng con trỏ, sao chép, tìm kiếm và đọc to. Một tệp PDF dựng từ trình xử lý văn bản hay ứng dụng dàn trang có sẵn lớp này, với mỗi ký tự được ánh xạ tới một vị trí và một phông chữ.
Đối lập với nó là tệp PDF đã quét, thường chỉ là một bức ảnh của trang giấy bọc trong lớp vỏ PDF. Nó trông như một tài liệu, nhưng bên dưới không có văn bản nào, nên tìm kiếm không thấy gì và chọn cũng chẳng bắt được gì. OCR là thứ thêm vào lớp còn thiếu đó: nó nhận dạng các ký tự trong hình ảnh và ghi lại thành một lớp văn bản vô hình căn khớp với những điểm ảnh nhìn thấy được, để trang vẫn trông như cũ trong khi trở nên hoàn toàn tìm kiếm được.
Biết một tệp có lớp văn bản thật hay không sẽ giải thích rất nhiều bực bội hằng ngày, vì sao một tệp PDF tìm kiếm được còn tệp khác thì không. Khi bạn cần lớp đó, tạo nó cục bộ nghĩa là các từ trong tài liệu được trích xuất ngay trên máy của bạn thay vì chuyển tới một dịch vụ từ xa có thể giữ lại chúng.
Công cụ liên quan