Skip to content
reader.me

OCR PDF — trích xuất văn bản

Trích xuất văn bản có thể tìm kiếm từ PDF được quét. Chạy cục bộ với Tesseract.

Xử lý: application/pdf

Xử lý ≤ 50.0 MB

About this tool

Trích xuất văn bản có thể tìm kiếm từ PDF được quét. Chạy cục bộ với Tesseract.

All processing happens in your browser. Your PDF never uploads to our servers. No account required, no usage limits.

Câu hỏi thường gặp

Công cụ OCR này có miễn phí không?

Có, hoàn toàn miễn phí không giới hạn sử dụng, không cần tài khoản.

PDF của tôi có được tải lên máy chủ không?

Không. Tesseract chạy trong trình duyệt của bạn qua WebAssembly — PDF của bạn không bao giờ rời khỏi thiết bị của bạn.

Lần sử dụng đầu tiên có cần kết nối Internet không?

Có. Lần đầu tiên bạn chọn ngôn ngữ, chúng tôi tải xuống ~12 MB dữ liệu được đào tạo từ CDN Tesseract. Sau đó, OCR hoạt động hoàn toàn ngoại tuyến.

Ngôn ngữ nào được hỗ trợ?

Anh, Tây Ban Nha, Pháp, Đức, Ý, Bồ Đào Nha, Hà Lan, Hàn và Nhật. Trộn hai với "+" (ví dụ eng+spa) cho tài liệu đa ngôn ngữ.

Định dạng đầu ra là gì?

Tệp .txt thuần túy với văn bản được trích xuất theo trang. Xuất PDF/A với lớp văn bản có thể tìm kiếm sẽ có trong bản cập nhật tương lai.