מילון מונחי PDF

מילון PDF: מונחים ופורמטים

מה כל מונח ופורמט PDF באמת אומר, בשפה פשוטה. הז'רגון שאתה נתקל בו, מוסבר.

פורמטים

‏PDF‏ (Portable Document Format) הוא פורמט קובץ שמקבע את המיקום המדויק של כל תו, קו ותמונה בעמוד, כך שמסמך נראה זהה בין שפותחים אותו בטלפון, במחשב נייד או ב‑RIP של בית דפוס. Adobe יצרה אותו ב‑1993 והעבירה את המפרט ל‑ISO ב‑2008, שם הוא הפך לתקן הפתוח ISO 32000. דווקא הפתיחות הזאת היא הסיבה שכל כך הרבה כלים עצמאיים יכולים לקרוא ולכתוב PDF בלי לבקש רשות מאף אחד.

PDF/A

‏PDF/A הוא הפרופיל של תקן ISO 19005 שנבנה לארכוב לטווח ארוך. המטרה פשוטה: מסמך שייפתח בעוד חמישים שנה צריך להיראות בדיוק כמו היום, בלי גופנים חסרים ובלי תלות במשאבים חיצוניים שאולי נעלמו. כדי להבטיח זאת, התקן אוסר כל דבר שעלול להישבר עם הזמן.

PDF/UA

‏PDF/UA‏ (ISO 14289, כש‑UA הוא ראשי תיבות של Universal Accessibility) הוא התקן שהופך PDF לשמיש עבור אנשים שנשענים על טכנולוגיה מסייעת. קורא מסך לא יכול להבין דיו על דף; הוא צריך מבנה לוגי מתחת. PDF/UA מגדיר בדיוק כיצד יש לבנות את המבנה הזה.

PDF/X

‏PDF/X‏ (ISO 15930) הוא משפחת הפרופילים שנוצרה לדפוס מקצועי ולאמנות גרפית. כשקובץ נשלח לבית דפוס מסחרי, עמימות עולה כסף: גופן חסר, תמונת RGB במקום שבו ציפו ל‑CMYK, או תיבת חיתוך לא מוגדרת יכולים להרוס מהדורת דפוס שלמה. PDF/X מסלק את העמימות הזאת בכך שהוא מכריח כל פרט קריטי לדפוס להיות מפורש.

מושגים

OCR

‏OCR‏ (Optical Character Recognition) הופך את התמונה של הטקסט לתווים אמיתיים שאפשר לבחור. עמוד סרוק או צילום של מסמך הם, מבחינת המחשב, סתם רשת של פיקסלים: אין בהם טקסט, רק תמונה שבמקרה נראית כמו מילים. OCR מנתח את הצורות של האותיות ומשחזר את מחרוזת התווים שמתחת.

AcroForm

‏AcroForm הוא טכנולוגיית הטפסים המקורית והמובנית של PDF, הסוג של טופס אינטראקטיבי שהוא חלק מהפורמט מאז סוף שנות התשעים. השדות הניתנים למילוי שאתה רואה בהחזר מס או בטופס בקשה, תיבות טקסט, תיבות סימון, לחצני רדיו, תפריטים נפתחים ושדות חתימה, הם אובייקטי AcroForm המוגדרים ישירות במבנה האובייקטים של ה‑PDF.

XFA

‏XFA‏ (XML Forms Architecture) היא טכנולוגיית הטפסים החלופית של Adobe, שבה הטופס מוגדר לא על ידי אובייקטי PDF מקוריים אלא על ידי מטען XML המוטמע בתוך מעטפת ה‑PDF. היא תוכננה לטפסים מורכבים ודינמיים: פריסות שגדלות כשאתה מוסיף שורות, שדות שמופיעים או נעלמים בהתאם לתשובות קודמות, וקישור הדוק לסכמות נתונים בצד השרת.

מטא‑נתונים

מטא‑נתונים הם הנתונים על הנתונים שלך, המידע ש‑PDF נושא מעבר לתוכן הגלוי של העמוד. יש שני מאגרים עיקריים: מילון פרטי המסמך הישן (כותרת, מחבר, נושא, מילות מפתח, התוכנה שיצרה אותו, ותאריכי יצירה ושינוי) ו‑XMP, בלוק מבוסס XML שמחזיק את אותם שדות בתוספת מאפיינים עשירים יותר וניתנים להרחבה.

דחיסה

דחיסה היא מה ששומר על גדלי קובצי PDF נשלטים, ומסמך יחיד בדרך כלל מערבב כמה שיטות מכיוון שהוא מערבב כמה סוגי תוכן. טקסט והוראות ציור וקטוריות נדחסים ללא אובדן עם Flate (אותו אלגוריתם Deflate שמאחורי ZIP), כך שכל תו חוזר בדיוק כפי שנכנס.

גופנים מוטמעים

גופנים מוטמעים הם גופנים הארוזים בתוך ה‑PDF עצמו ולא מושאלים מהמחשב שפותח אותו. זוהי התכונה שהופכת את PDF לנייד באמת: אם הגופן נוסע עם המסמך, הטקסט מוצג זהה בכל מקום, אפילו במכשיר שמעולם לא היה מותקן בו הגופן הזה.

שכבת טקסט

שכבת הטקסט היא החלק של PDF שמחזיק תווים אמיתיים וקריאים למכונה, התוכן שאתה יכול לבחור עם הסמן, להעתיק, לחפש ולהקריא בקול. PDF שנבנה ממעבד תמלילים או מאפליקציית עימוד יש לו את השכבה הזאת באופן מקורי, כשכל תו ממופה למיקום ולגופן.

סימן מים

סימן מים הוא טקסט או תמונה המונחים על עמודי PDF כדי לסמן סטטוס או בעלות, "טיוטה" או "חסוי" באלכסון חיוור על פני העמוד, לוגו של חברה, או שורת זכויות יוצרים. הוא מאותת על כוונה בלי להסתיר את התוכן שמתחת, בדרך כלל בכך שהוא שקוף למחצה או יושב מאחורי הטקסט הראשי.

לינאריזציה

לינאריזציה, שמשווקת על ידי Adobe בשם Fast Web View, היא דרך לארגן מחדש את סדר הבייטים הפנימי של PDF כך שניתן להציג אותו לפני שכל הקובץ הגיע. ב‑PDF רגיל טבלת ההצלבות שמאנדקסת כל אובייקט יושבת ממש בסוף, אז מציג טכנית צריך את הקובץ המלא כדי לדעת היכן נמצאים הדברים.

אבטחה

AES

‏AES‏ (Advanced Encryption Standard) הוא צופן הבלוקים שמאבטח PDF מוגן בסיסמה. כשאתה נועל מסמך, זרמי תוכן העמוד והמחרוזות מוצפנים ב‑AES, והדרך היחידה חזרה לבייטים הקריאים היא לספק את הסיסמה הנכונה ולגזור את המפתח הנכון. בלעדיו, הקובץ בדיסק הוא סתם טקסט מוצפן.

חתימה אלקטרונית

חתימה אלקטרונית היא, במובן המשפטי הרחב ביותר, כל נתון המצורף למסמך שמעיד על כוונת החותם להסכים, החל משם מודפס או שרבוט מצויר ועד חותם מגובה בקריפטוגרפיה. תקנת ה‑eIDAS של האיחוד האירופי ממיינת אותן לרמות, וההבחנה חשובה כשחתימה צריכה לעמוד במבחן בהמשך.

חתימה דיגיטלית

חתימה דיגיטלית היא המנגנון הקריפטוגרפי שמוכיח מי חתם על PDF ושאיש לא שינה אותו מאז. זהו המנוע הטכני שעליו נשענות החתימות האלקטרוניות החזקות ביותר, והוא בנוי מקריפטוגרפיית מפתח ציבורי ולא מתמונה כלשהי של משיכת עט.

תמונות

וקטור

גרפיקה וקטורית מתארת תמונה כמתמטיקה, נקודות, קווים, עקומות ומילויים, ולא כרשת קבועה של נקודות צבעוניות. עיגול נשמר כמרכז, רדיוס וצבע, כך שהמחשב מצייר אותו מחדש בכל גודל שמתבקש. התוצאה היא התכונה המגדירה של אמנות וקטורית: היא מתאימה לכל גודל ללא אובדן חדות.

רסטר

תמונת רסטר היא רשת מלבנית של פיקסלים, שכל אחד מהם מחזיק ערך צבע, המודל שמאחורי כל תצלום וסריקה. בניגוד לווקטור, לרסטר יש רזולוציה מקורית קבועה: הוא שומר בדיוק כך וכך נקודות לרוחב ולגובה, וכל הפרטים שלו אפויים לתוך הרשת הזאת.

JPG

‏JPG‏ (נכתב גם JPEG, על שם Joint Photographic Experts Group שהגדיר אותו) הוא פורמט הרסטר עם אובדן שנבנה לתצלומים. הוא עובד בכך שהוא ממיר את התמונה לרכיבי תדר ומשליך את הפרטים הדקים שהעין האנושית הכי פחות סבירה לפספס, וכך הוא דוחס תצלום בצבע מלא לקובץ קטן.

PNG

‏PNG‏ (Portable Network Graphics) הוא פורמט הרסטר ללא אובדן לגרפיקה בעלת קצוות חדים וצבע שטוח, צילומי מסך, לוגואים, אייקונים, דיאגרמות וכל דבר המכיל טקסט. ללא אובדן פירושו שהוא שומר את התמונה בדיוק: שמור אותה מחדש כמה פעמים שתרצה ואף פיקסל אחד לא משתנה, ההפך מהניוון הדורי של JPEG.

WebP

‏WebP הוא פורמט תמונה מ‑Google שמטרתו להחליף גם את JPEG וגם את PNG במכל אחד. הטריק שלו הוא תמיכה בשני מצבים: דחיסה עם אובדן לתצלומים, כמו JPEG, ודחיסה ללא אובדן לגרפיקה, כמו PNG, תוך הפקת קבצים קטנים יותר משניהם בדרך כלל באיכות דומה.

TIFF

‏TIFF‏ (Tagged Image File Format) הוא פורמט הרסטר כבד המשקל המשמש בארכוב, בסריקה ובהדמיה מקצועית. שמו נובע ממבנהו: ערכה גמישה של תגים המתארים את התמונה, מה שמאפשר ל‑TIFF יחיד להחזיק נתונים לא דחוסים או דחוסים ללא אובדן, עומקי סיביות גבוהים, פרופילי צבע מוטמעים והרבה מאוד מטא‑נתונים טכניים.

SVG

‏SVG‏ (Scalable Vector Graphics) הוא פורמט וקטורי פתוח ומבוסס XML, תמונה הכתובה כטקסט קריא המתאר צורות, מסלולים, צבעים וטקסט. מכיוון שהוא וקטורי, הוא מתאים לכל גודל עם קצוות חדים בצורה מושלמת, ומכיוון שהוא XML, אפשר לעצב אותו עם CSS, להנפיש אותו, ואפילו לחפש או לערוך אותו בעורך טקסט פשוט.

DPI

‏DPI‏ (dots per inch, נקודות לאינץ') מודד רזולוציה, כמה נקודות של פירוט נדחסות לכל אינץ' של תמונה או הדפסה. ככל שהמספר גבוה יותר, כך הפירוט עדין יותר והקובץ גדול יותר. זוהי ההגדרה הבודדת שלרוב מכריעה אם סריקה או ייצוא נראים חדים או מאכזבים.