Skip to content
reader.me

OCR PDF — trích xuất văn bản

Chuyển đổi

Trích xuất văn bản có thể tìm kiếm từ PDF được quét. Chạy cục bộ với Tesseract.

Thả PDF vào đây

Xử lý ≤ 50.0 MB

Giới thiệu công cụ

Trích xuất văn bản có thể tìm kiếm từ PDF được quét. Chạy cục bộ với Tesseract.

Quyền riêng tư từ kiến trúc

Mọi xử lý đều diễn ra trong trình duyệt. PDF không bao giờ được tải lên máy chủ. Không cần tài khoản, không giới hạn sử dụng.

Cách hoạt động

  1. 1Chọn PDF — không bao giờ rời khỏi thiết bị
  2. 2Cấu hình công cụ theo nhu cầu
  3. 3Lưu kết quả vào tải về

Câu hỏi thường gặp

Công cụ OCR này có miễn phí không?

Có, hoàn toàn miễn phí không giới hạn sử dụng, không cần tài khoản.

PDF của tôi có được tải lên máy chủ không?

Không. Tesseract chạy trong trình duyệt của bạn qua WebAssembly — PDF của bạn không bao giờ rời khỏi thiết bị của bạn.

Lần sử dụng đầu tiên có cần kết nối Internet không?

Có. Lần đầu tiên bạn chọn ngôn ngữ, chúng tôi tải xuống ~12 MB dữ liệu được đào tạo từ CDN Tesseract. Sau đó, OCR hoạt động hoàn toàn ngoại tuyến.

Ngôn ngữ nào được hỗ trợ?

Anh, Tây Ban Nha, Pháp, Đức, Ý, Bồ Đào Nha, Hà Lan, Hàn và Nhật. Trộn hai với "+" (ví dụ eng+spa) cho tài liệu đa ngôn ngữ.

Định dạng đầu ra là gì?

Tệp .txt thuần túy với văn bản được trích xuất theo trang. Xuất PDF/A với lớp văn bản có thể tìm kiếm sẽ có trong bản cập nhật tương lai.