OCR

OCR (Optical Character Recognition) biến hình ảnh của văn bản thành những ký tự thực sự, có thể chọn được. Với máy tính, một trang quét hay một bức ảnh chụp tài liệu chỉ là một lưới điểm ảnh: trong đó không có văn bản nào cả, chỉ là một hình ảnh tình cờ trông giống chữ. OCR phân tích hình dạng các chữ cái và dựng lại chuỗi ký tự nằm bên dưới.

Kết quả thường được ghi lại thành một lớp văn bản vô hình nằm chồng khít lên hình ảnh gốc, nên trang giấy vẫn trông như bản quét nhưng giờ đã có thể tìm kiếm, sao chép và lập chỉ mục. Các engine hiện đại xử lý được nhiều ngôn ngữ, nhiều cột và bảng biểu, và độ chính xác phụ thuộc rất nhiều vào độ phân giải nguồn: một bản quét sạch 300 DPI nhận dạng tốt hơn hẳn một bức ảnh điện thoại mờ nhòe. Tesseract, engine mã nguồn mở, là nền tảng mà hầu hết công cụ chạy trên trình duyệt dựa vào.

Vì OCR thường chạy trên giấy tờ nhạy cảm như hóa đơn, hợp đồng, giấy tờ tùy thân, nên nơi nó diễn ra là một câu hỏi thực sự về quyền riêng tư. reader.me chạy nhận dạng bằng WebAssembly ngay trong trình duyệt của bạn, nên hình ảnh trang và văn bản nó tạo ra ở lại trên thiết bị của bạn và không bao giờ bị gửi đi đâu để một máy chủ đọc.

Công cụ liên quan

Thêm thuật ngữ

AcroForm XFA Metadata Compression Embedded fonts Text layer

← Quay lại từ điển