Skip to content
reader.me

TỪ ĐIỂN PDF

Từ điển PDF: thuật ngữ và định dạng

Mỗi thuật ngữ và định dạng PDF thực sự nghĩa là gì, bằng ngôn ngữ dễ hiểu. Những thuật ngữ chuyên ngành bạn gặp phải, được giải thích.

Định dạng

PDF

PDF (Portable Document Format) là một định dạng tệp cố định vị trí chính xác của từng ký tự, đường nét và hình ảnh trên trang, nên một tài liệu trông giống hệt nhau dù bạn mở nó trên điện thoại, máy tính xách tay hay máy RIP của tiệm in. Adobe tạo ra nó vào năm 1993 và bàn giao đặc tả cho ISO vào năm 2008, nơi nó trở thành chuẩn mở ISO 32000. Chính sự cởi mở đó là lý do rất nhiều công cụ độc lập có thể đọc và ghi PDF mà không phải xin phép ai.

PDF/A

PDF/A là hồ sơ chuẩn ISO 19005 được tạo ra cho việc lưu trữ lâu dài. Mục tiêu rất đơn giản: một tài liệu mở ra sau năm mươi năm phải hiển thị đúng như hôm nay, không thiếu phông chữ và không phụ thuộc vào tài nguyên bên ngoài có thể đã biến mất. Để bảo đảm điều đó, chuẩn này cấm mọi thứ có thể hỏng theo thời gian.

PDF/UA

PDF/UA (ISO 14289, trong đó UA là viết tắt của Universal Accessibility) là chuẩn giúp một tệp PDF dùng được cho những người phụ thuộc vào công nghệ hỗ trợ. Một trình đọc màn hình không thể hiểu được mực in trên trang giấy; nó cần một cấu trúc logic bên dưới. PDF/UA định nghĩa chính xác cách phải xây dựng cấu trúc đó.

PDF/X

PDF/X (ISO 15930) là họ hồ sơ chuẩn được tạo ra cho in ấn chuyên nghiệp và nghệ thuật đồ họa. Khi một tệp đưa đến nhà in thương mại, sự mơ hồ là rất tốn kém: một phông chữ bị thiếu, một ảnh RGB ở chỗ đáng lẽ phải là CMYK, hay một khung xén không xác định có thể làm hỏng cả một lượt in. PDF/X loại bỏ sự mơ hồ đó bằng cách buộc mọi chi tiết then chốt cho in ấn phải được nêu rõ ràng.

Khái niệm

OCR

OCR (Optical Character Recognition) biến hình ảnh của văn bản thành những ký tự thực sự, có thể chọn được. Với máy tính, một trang quét hay một bức ảnh chụp tài liệu chỉ là một lưới điểm ảnh: trong đó không có văn bản nào cả, chỉ là một hình ảnh tình cờ trông giống chữ. OCR phân tích hình dạng các chữ cái và dựng lại chuỗi ký tự nằm bên dưới.

AcroForm

AcroForm là công nghệ biểu mẫu gốc, tích hợp sẵn của PDF, loại biểu mẫu tương tác đã là một phần của định dạng này từ cuối những năm 1990. Các trường có thể điền mà bạn thấy trong tờ khai thuế hay đơn đăng ký, như ô văn bản, ô đánh dấu, nút chọn, danh sách thả xuống và trường chữ ký, đều là các đối tượng AcroForm được định nghĩa trực tiếp trong cấu trúc đối tượng của PDF.

XFA

XFA (XML Forms Architecture) là công nghệ biểu mẫu thay thế của Adobe, trong đó biểu mẫu không được định nghĩa bằng các đối tượng PDF gốc mà bằng một khối dữ liệu XML nhúng bên trong lớp vỏ PDF. Nó được thiết kế cho những biểu mẫu phức tạp, động: bố cục nở ra khi bạn thêm hàng, các trường xuất hiện hay biến mất tùy theo câu trả lời trước đó, và liên kết chặt chẽ với các lược đồ dữ liệu phía sau.

Siêu dữ liệu

Siêu dữ liệu là dữ liệu nói về dữ liệu của bạn, những thông tin mà một tệp PDF mang theo ngoài nội dung trang nhìn thấy được. Có hai kho chính: Document Information Dictionary cũ (tiêu đề, tác giả, chủ đề, từ khóa, phần mềm tạo ra nó, cùng ngày tạo và ngày sửa) và XMP, một khối dựa trên XML chứa cùng các trường đó cộng thêm những thuộc tính phong phú, có thể mở rộng.

Nén

Nén là thứ giữ cho kích thước tệp PDF nằm trong tầm kiểm soát, và một tài liệu thường pha trộn nhiều phương pháp vì nó pha trộn nhiều loại nội dung. Văn bản và các lệnh vẽ vector được nén không mất mát bằng Flate (cùng thuật toán Deflate đứng sau ZIP), nên mọi ký tự trở về đúng như khi đưa vào.

Phông chữ nhúng

Phông chữ nhúng là những kiểu chữ được đóng gói bên trong chính tệp PDF thay vì mượn từ máy tính mở nó. Đây là tính năng khiến PDF thực sự có tính di động: nếu phông chữ đi cùng tài liệu, văn bản sẽ hiển thị giống hệt nhau ở mọi nơi, kể cả trên một máy chưa từng cài kiểu chữ đó.

Lớp văn bản

Lớp văn bản là phần của một tệp PDF chứa những ký tự thực sự, máy đọc được, tức nội dung bạn có thể chọn bằng con trỏ, sao chép, tìm kiếm và đọc to. Một tệp PDF dựng từ trình xử lý văn bản hay ứng dụng dàn trang có sẵn lớp này, với mỗi ký tự được ánh xạ tới một vị trí và một phông chữ.

Hình mờ

Hình mờ là văn bản hoặc hình ảnh phủ lên các trang của một tệp PDF để đánh dấu trạng thái hay quyền sở hữu, như một chữ "BẢN NHÁP" hay "MẬT" mờ nhạt nằm chéo trang, một logo công ty, hay một dòng bản quyền. Nó báo hiệu ý định mà không che mất nội dung bên dưới, thường bằng cách bán trong suốt hoặc nằm sau văn bản chính.

Tuyến tính hóa

Tuyến tính hóa, được Adobe tiếp thị dưới tên Fast Web View, là một cách sắp xếp lại thứ tự byte bên trong của một tệp PDF để nó có thể hiển thị trước khi cả tệp về đến nơi. Trong một tệp PDF thông thường, bảng tham chiếu chéo lập chỉ mục mọi đối tượng nằm ở tận cuối, nên về mặt kỹ thuật trình xem cần cả tệp mới biết mọi thứ ở đâu.

Bảo mật

Hình ảnh

Vector

Đồ họa vector mô tả một hình ảnh bằng toán học, gồm điểm, đường thẳng, đường cong và vùng tô, thay vì bằng một lưới cố định gồm các chấm màu. Một hình tròn được lưu thành một tâm, một bán kính và một màu, nên máy tính vẽ lại nó ở bất cứ kích thước nào được yêu cầu. Hệ quả là tính chất định nghĩa của nghệ thuật vector: nó co giãn tới bất kỳ kích thước nào mà không mất độ sắc nét.

Raster

Hình ảnh raster là một lưới chữ nhật gồm các điểm ảnh, mỗi điểm giữ một giá trị màu, mô hình đứng sau mọi bức ảnh chụp và bản quét. Khác với vector, một hình raster có độ phân giải gốc cố định: nó lưu chính xác bấy nhiêu chấm theo chiều ngang và chiều dọc, và mọi chi tiết của nó đều được nung sẵn vào lưới đó.

JPG

JPG (còn viết là JPEG, theo tên Joint Photographic Experts Group đã định nghĩa nó) là định dạng raster có mất mát được tạo ra cho ảnh chụp. Nó hoạt động bằng cách biến đổi hình ảnh thành các thành phần tần số và loại bỏ những chi tiết tinh tế mà mắt người ít có khả năng nhận ra nhất, đó là cách nó ép một bức ảnh đầy màu vào một tệp nhỏ.

PNG

PNG (Portable Network Graphics) là định dạng raster không mất mát dành cho đồ họa có cạnh sắc và màu phẳng, như ảnh chụp màn hình, logo, biểu tượng, sơ đồ và bất cứ thứ gì chứa văn bản. Không mất mát nghĩa là nó lưu hình ảnh một cách chính xác: lưu lại bao nhiêu lần tùy thích mà không một điểm ảnh nào thay đổi, trái ngược với sự xuống cấp theo thế hệ của JPEG.

WebP

WebP là một định dạng hình ảnh từ Google nhằm thay thế cả JPEG lẫn PNG bằng một định dạng duy nhất. Mánh của nó là hỗ trợ hai chế độ: nén có mất mát cho ảnh chụp, như JPEG, và nén không mất mát cho đồ họa, như PNG, trong khi thường tạo ra tệp nhỏ hơn cả hai ở mức chất lượng tương đương.

TIFF

TIFF (Tagged Image File Format) là định dạng raster hạng nặng được dùng trong lưu trữ, quét và xử lý ảnh chuyên nghiệp. Tên của nó đến từ cấu trúc của nó: một tập hợp thẻ linh hoạt mô tả hình ảnh, cho phép một tệp TIFF duy nhất chứa dữ liệu không nén hoặc nén không mất mát, độ sâu bit cao, hồ sơ màu nhúng và rất nhiều siêu dữ liệu kỹ thuật.

SVG

SVG (Scalable Vector Graphics) là một định dạng vector mở, dựa trên XML, một hình ảnh được viết dưới dạng văn bản đọc được mô tả các hình dạng, đường dẫn, màu sắc và chữ. Vì là vector, nó co giãn tới bất kỳ kích thước nào với cạnh sắc nét hoàn hảo, và vì là XML, nó có thể được tạo kiểu bằng CSS, làm hoạt hình, thậm chí tìm kiếm hay chỉnh sửa trong một trình soạn thảo văn bản thuần.

DPI

DPI (số chấm trên mỗi inch) đo độ phân giải, tức bao nhiêu chấm chi tiết được dồn vào mỗi inch của một hình ảnh hay bản in. Con số càng cao, chi tiết càng mịn và tệp càng lớn. Đây là thiết lập duy nhất thường quyết định nhất việc một bản quét hay một bản xuất trông sắc nét hay đáng thất vọng.