واژه‌نامهٔ PDF

واژه‌نامهٔ PDF: اصطلاح‌ها و قالب‌ها

هر اصطلاح و قالب PDF واقعاً به چه معناست، به زبان ساده. همان واژه‌های تخصصی که به آنها برمی‌خورید، توضیح‌داده‌شده.

قالب‌ها

فرمت PDF (مخفف Portable Document Format) قالبی است که جای دقیق هر کاراکتر، خط و تصویر را روی صفحه ثابت می‌کند؛ به همین خاطر یک سند، چه روی گوشی بازش کنید، چه روی لپ‌تاپ و چه روی دستگاه RIP یک چاپخانه، دقیقاً یک‌جور دیده می‌شود. Adobe آن را در سال ۱۹۹۳ ساخت و در سال ۲۰۰۸ مشخصاتش را به ISO سپرد، جایی که به استاندارد باز ISO 32000 تبدیل شد. همین باز بودن است که باعث می‌شود این‌همه ابزار مستقل بتوانند بدون اجازه گرفتن از کسی، PDF را بخوانند و بنویسند.

PDF/A

فرمت PDF/A همان پروفایل ISO 19005 است که برای بایگانی بلندمدت ساخته شده. هدف ساده است: سندی که پنجاه سال دیگر باز شود باید دقیقاً همان‌طور نمایش داده شود که امروز نمایش داده می‌شود، بدون هیچ فونت گم‌شده و بدون وابستگی به منابع بیرونی‌ای که شاید تا آن موقع ناپدید شده باشند. برای تضمین این موضوع، استاندارد هر چیزی را که ممکن است با گذشت زمان خراب شود ممنوع می‌کند.

PDF/UA

فرمت PDF/UA (همان ISO 14289، که UA مخفف Universal Accessibility است) استانداردی است که یک PDF را برای افرادی که به فناوری کمکی متکی‌اند قابل استفاده می‌کند. یک صفحه‌خوان نمی‌تواند از جوهرِ روی کاغذ سر دربیاورد؛ به یک ساختار منطقی در زیر آن نیاز دارد. PDF/UA دقیقاً تعریف می‌کند که آن ساختار چطور باید ساخته شود.

PDF/X

فرمت PDF/X (همان ISO 15930) خانواده‌ای از پروفایل‌هاست که برای چاپ حرفه‌ای و هنرهای گرافیک ساخته شده. وقتی فایلی به چاپ تجاری می‌رود، ابهام گران تمام می‌شود: یک فونت گم‌شده، یک تصویر RGB جایی که CMYK انتظار می‌رفت، یا یک trim box تعریف‌نشده می‌تواند یک نوبت چاپ کامل را خراب کند. PDF/X با وادار کردن هر جزئیات حیاتیِ چاپ به صریح بودن، آن ابهام را از میان برمی‌دارد.

مفاهیم

OCR

فناوری OCR (مخفف Optical Character Recognition، یعنی بازشناسی نوری نویسه) تصویرِ متن را به کاراکترهای واقعی و قابل انتخاب تبدیل می‌کند. یک صفحهٔ اسکن‌شده یا عکسِ یک سند، برای کامپیوتر فقط شبکه‌ای از پیکسل است: هیچ متنی در آن نیست، صرفاً تصویری که اتفاقاً شبیه کلمه‌هاست. OCR شکل حرف‌ها را تحلیل می‌کند و رشتهٔ کاراکترهای زیرین را بازمی‌سازد.

AcroForm

یک AcroForm فناوری فرمِ بومی و توکار PDF است؛ همان نوع فرم تعاملی که از اواخر دههٔ ۱۹۹۰ بخشی از این قالب بوده. آن فیلدهای پرشدنی که در یک اظهارنامهٔ مالیاتی یا فرم درخواست می‌بینید، کادرهای متن، چک‌باکس‌ها، دکمه‌های رادیویی، فهرست‌های کشویی و فیلدهای امضا، همگی آبجکت‌های AcroForm هستند که مستقیماً در ساختار آبجکتیِ PDF تعریف شده‌اند.

XFA

فناوری XFA (مخفف XML Forms Architecture) فناوری فرمِ جایگزین Adobe است که در آن فرم نه با آبجکت‌های بومی PDF، بلکه با یک محمولهٔ XML که داخل پوستهٔ PDF جاسازی شده تعریف می‌شود. این فناوری برای فرم‌های پیچیده و پویا طراحی شد: چیدمان‌هایی که با افزودن سطر بزرگ می‌شوند، فیلدهایی که بسته به پاسخ‌های قبلی ظاهر یا ناپدید می‌شوند، و اتصالی محکم به شِماهای دادهٔ پشتیبان.

متادیتا

متادیتا یعنی داده دربارهٔ داده‌های شما، اطلاعاتی که یک PDF فراتر از محتوای دیدارِ صفحه با خود حمل می‌کند. دو انباره اصلی وجود دارد: همان Document Information Dictionaryِ قدیمی (عنوان، نویسنده، موضوع، کلیدواژه‌ها، نرم‌افزاری که آن را ساخته، و تاریخ‌های ایجاد و ویرایش) و XMP، یک بلوک مبتنی بر XML که همان فیلدها به‌علاوهٔ ویژگی‌های غنی‌تر و گسترش‌پذیرتر را نگه می‌دارد.

فشرده‌سازی

فشرده‌سازی همان چیزی است که حجم فایل‌های PDF را قابل مدیریت نگه می‌دارد، و یک سند معمولاً چند روش را با هم می‌آمیزد چون چند نوع محتوا را با هم دارد. متن و دستورهای ترسیمِ برداری به‌صورت بی‌اتلاف با Flate فشرده می‌شوند (همان الگوریتم Deflate که پشت ZIP است)، پس هر کاراکتر دقیقاً همان‌طور که رفته بازمی‌گردد.

فونت‌های جاسازی‌شده

فونت‌های جاسازی‌شده قلم‌هایی هستند که به‌جای قرض گرفتن از کامپیوتری که فایل را باز می‌کند، درون خودِ PDF بسته‌بندی شده‌اند. همین ویژگی است که PDF را به‌راستی قابل‌حمل می‌کند: اگر فونت همراه سند سفر کند، متن همه‌جا یک‌جور رندر می‌شود، حتی روی دستگاهی که هرگز آن قلم را نصب نکرده.

لایهٔ متن

لایهٔ متن همان بخشی از یک PDF است که کاراکترهای واقعی و ماشین‌خوان را نگه می‌دارد، محتوایی که می‌توانید با مکان‌نما انتخابش کنید، کپی کنید، جست‌وجو کنید و با صدای بلند خوانده شود. یک PDFی که از یک واژه‌پرداز یا اپ صفحه‌آرایی ساخته شده این لایه را به‌صورت بومی دارد، که در آن هر کاراکتر به یک موقعیت و یک فونت نگاشته شده.

واترمارک

یک واترمارک، متن یا تصویری است که روی صفحه‌های یک PDF گذاشته می‌شود تا وضعیت یا مالکیت را نشان دهد، یک «DRAFT» یا «CONFIDENTIAL»ِ کمرنگ که به‌صورت اریب روی صفحه کشیده شده، یک لوگوی شرکت، یا یک خط کپی‌رایت. این کار قصد را اعلام می‌کند بی‌آنکه محتوای زیرین را بپوشاند، معمولاً با نیمه‌شفاف بودن یا نشستن پشت متن اصلی.

خطی‌سازی

خطی‌سازی، که Adobe آن را با نام Fast Web View بازاریابی می‌کند، راهی است برای بازچینش ترتیب بایت‌های داخلیِ یک PDF طوری که بتواند پیش از رسیدن کل فایل نمایش داده شود. در یک PDF عادی، جدول ارجاع متقابل که هر آبجکت را نمایه‌گذاری می‌کند درست در انتها می‌نشیند، پس یک نمایشگر از نظر فنی به فایل کامل نیاز دارد تا بداند چیزها کجا هستند.

امنیت

AES

استاندارد AES (مخفف Advanced Encryption Standard) همان رمز قالبی است که یک PDF محافظت‌شده با رمز عبور را امن می‌کند. وقتی سندی را قفل می‌کنید، استریم‌های محتوای صفحه و رشته‌ها با AES رمزنگاری می‌شوند و تنها راه بازگشت به بایت‌های خوانا، وارد کردن رمز عبور درست و استخراج کلید صحیح است. بدون آن، فایلِ روی دیسک فقط متن رمزشده است.

امضای الکترونیکی

امضای الکترونیکی، در گسترده‌ترین معنای حقوقی، هر داده‌ای است که به یک سند پیوست می‌شود و قصد امضاکننده برای موافقت را نشان می‌دهد، از یک نام تایپ‌شده یا یک خط‌خطیِ کشیده‌شده تا یک مهرِ پشتیبانی‌شده با رمزنگاری. مقررات eIDAS اتحادیهٔ اروپا اینها را به سطوحی دسته‌بندی می‌کند و این تمایز وقتی اهمیت پیدا می‌کند که قرار باشد یک امضا بعدها در برابر چالش بایستد.

امضای دیجیتال

امضای دیجیتال همان سازوکار رمزنگارانه است که ثابت می‌کند چه کسی یک PDF را امضا کرده و اینکه از آن زمان هیچ‌کس آن را تغییر نداده است. این موتور فنی‌ای است که قوی‌ترین امضاهای الکترونیکی به آن تکیه می‌کنند و از رمزنگاری کلید عمومی ساخته شده، نه از هیچ تصویری از یک حرکت قلم.

تصویرها

وکتور

گرافیک‌های وکتور (برداری) یک تصویر را به‌صورت ریاضیات توصیف می‌کنند، نقطه‌ها، خط‌ها، منحنی‌ها و پُرشدگی‌ها، نه به‌صورت شبکه‌ای ثابت از نقطه‌های رنگی. یک دایره به‌صورت یک مرکز، یک شعاع و یک رنگ ذخیره می‌شود، پس کامپیوتر آن را در هر اندازه‌ای که خواسته شود از نو ترسیم می‌کند. نتیجه، همان ویژگی تعریف‌کنندهٔ هنر برداری است: تا هر اندازه‌ای بدون از دست رفتن وضوح مقیاس می‌خورد.

رستر

یک تصویر رستر، شبکه‌ای مستطیلی از پیکسل‌هاست که هرکدام یک مقدار رنگ را نگه می‌دارند، همان مدلِ پشتِ هر عکس و هر اسکن. برخلاف یک وکتور، یک رستر وضوح بومیِ ثابتی دارد: دقیقاً همین‌قدر نقطه در عرض و در ارتفاع ذخیره می‌کند، و تمام جزئیاتش در همان شبکه پخته شده.

JPG

قالب JPG (که JPEG هم نوشته می‌شود، به‌نام Joint Photographic Experts Group که تعریفش کرد) قالب رستریِ اتلافی است که برای عکس‌ها ساخته شده. کارش این است که تصویر را به مؤلفه‌های فرکانسی تبدیل می‌کند و آن جزئیات ظریفی را که چشم انسان کمترین احتمال دارد دلتنگشان شود دور می‌ریزد، و این‌طور یک عکس تمام‌رنگی را در یک فایل کوچک جا می‌دهد.

PNG

قالب PNG (مخفف Portable Network Graphics) قالب رستریِ بی‌اتلاف برای گرافیک‌هایی با لبه‌های تیز و رنگ تخت است، اسکرین‌شات‌ها، لوگوها، آیکون‌ها، دیاگرام‌ها و هر چیزی که متن در خود دارد. بی‌اتلاف یعنی تصویر را دقیقاً ذخیره می‌کند: هر چندبار که خواستید دوباره ذخیره‌اش کنید و حتی یک پیکسل هم تغییر نمی‌کند، درست برعکسِ زوال نسلیِ JPEG.

WebP

قالب WebP یک قالب تصویری از Google است که هدفش جایگزینی هم JPEG و هم PNG با یک ظرف واحد است. ترفندش پشتیبانی از دو حالت است: فشرده‌سازی اتلافی برای عکس‌ها، مثل JPEG، و فشرده‌سازی بی‌اتلاف برای گرافیک‌ها، مثل PNG، در حالی که معمولاً در کیفیت برابر فایل‌های کوچک‌تری از هر دوی آنها تولید می‌کند.

TIFF

قالب TIFF (مخفف Tagged Image File Format) قالب رستریِ سنگین‌وزنی است که در بایگانی، اسکن و تصویربرداری حرفه‌ای به کار می‌رود. نامش از ساختارش می‌آید: مجموعه‌ای انعطاف‌پذیر از برچسب‌ها که تصویر را توصیف می‌کنند، و این به یک TIFF واحد اجازه می‌دهد دادهٔ فشرده‌نشده یا بی‌اتلاف‌فشرده، عمق بیتیِ بالا، پروفایل‌های رنگ جاسازی‌شده و حجم زیادی متادیتای فنی را در خود نگه دارد.

SVG

قالب SVG (مخفف Scalable Vector Graphics) یک قالب برداریِ باز و مبتنی بر XML است، تصویری که به‌صورت متنِ خوانا نوشته شده و شکل‌ها، مسیرها، رنگ‌ها و متن را توصیف می‌کند. چون برداری است، تا هر اندازه‌ای با لبه‌های کاملاً تیز مقیاس می‌خورد، و چون XML است، می‌توان با CSS استایلش داد، انیمیشنش کرد و حتی در یک ویرایشگر متنِ ساده جست‌وجو یا ویرایشش کرد.

DPI

واحد DPI (مخفف dots per inch، یعنی نقطه در هر اینچ) وضوح را می‌سنجد، اینکه چند نقطه جزئیات در هر اینچ از یک تصویر یا چاپ فشرده شده. هرچه عدد بالاتر باشد، جزئیات ظریف‌تر و فایل بزرگ‌تر است. این تنها تنظیمی است که اغلب تعیین می‌کند یک اسکن یا یک خروجی تیز به نظر می‌رسد یا ناامیدکننده.