واژهنامهٔ PDF
واژهنامهٔ PDF: اصطلاحها و قالبها
هر اصطلاح و قالب PDF واقعاً به چه معناست، به زبان ساده. همان واژههای تخصصی که به آنها برمیخورید، توضیحدادهشده.
قالبها
فرمت PDF (مخفف Portable Document Format) قالبی است که جای دقیق هر کاراکتر، خط و تصویر را روی صفحه ثابت میکند؛ به همین خاطر یک سند، چه روی گوشی بازش کنید، چه روی لپتاپ و چه روی دستگاه RIP یک چاپخانه، دقیقاً یکجور دیده میشود. Adobe آن را در سال ۱۹۹۳ ساخت و در سال ۲۰۰۸ مشخصاتش را به ISO سپرد، جایی که به استاندارد باز ISO 32000 تبدیل شد. همین باز بودن است که باعث میشود اینهمه ابزار مستقل بتوانند بدون اجازه گرفتن از کسی، PDF را بخوانند و بنویسند.
PDF/Aفرمت PDF/A همان پروفایل ISO 19005 است که برای بایگانی بلندمدت ساخته شده. هدف ساده است: سندی که پنجاه سال دیگر باز شود باید دقیقاً همانطور نمایش داده شود که امروز نمایش داده میشود، بدون هیچ فونت گمشده و بدون وابستگی به منابع بیرونیای که شاید تا آن موقع ناپدید شده باشند. برای تضمین این موضوع، استاندارد هر چیزی را که ممکن است با گذشت زمان خراب شود ممنوع میکند.
PDF/UAفرمت PDF/UA (همان ISO 14289، که UA مخفف Universal Accessibility است) استانداردی است که یک PDF را برای افرادی که به فناوری کمکی متکیاند قابل استفاده میکند. یک صفحهخوان نمیتواند از جوهرِ روی کاغذ سر دربیاورد؛ به یک ساختار منطقی در زیر آن نیاز دارد. PDF/UA دقیقاً تعریف میکند که آن ساختار چطور باید ساخته شود.
PDF/Xفرمت PDF/X (همان ISO 15930) خانوادهای از پروفایلهاست که برای چاپ حرفهای و هنرهای گرافیک ساخته شده. وقتی فایلی به چاپ تجاری میرود، ابهام گران تمام میشود: یک فونت گمشده، یک تصویر RGB جایی که CMYK انتظار میرفت، یا یک trim box تعریفنشده میتواند یک نوبت چاپ کامل را خراب کند. PDF/X با وادار کردن هر جزئیات حیاتیِ چاپ به صریح بودن، آن ابهام را از میان برمیدارد.
مفاهیم
فناوری OCR (مخفف Optical Character Recognition، یعنی بازشناسی نوری نویسه) تصویرِ متن را به کاراکترهای واقعی و قابل انتخاب تبدیل میکند. یک صفحهٔ اسکنشده یا عکسِ یک سند، برای کامپیوتر فقط شبکهای از پیکسل است: هیچ متنی در آن نیست، صرفاً تصویری که اتفاقاً شبیه کلمههاست. OCR شکل حرفها را تحلیل میکند و رشتهٔ کاراکترهای زیرین را بازمیسازد.
AcroFormیک AcroForm فناوری فرمِ بومی و توکار PDF است؛ همان نوع فرم تعاملی که از اواخر دههٔ ۱۹۹۰ بخشی از این قالب بوده. آن فیلدهای پرشدنی که در یک اظهارنامهٔ مالیاتی یا فرم درخواست میبینید، کادرهای متن، چکباکسها، دکمههای رادیویی، فهرستهای کشویی و فیلدهای امضا، همگی آبجکتهای AcroForm هستند که مستقیماً در ساختار آبجکتیِ PDF تعریف شدهاند.
XFAفناوری XFA (مخفف XML Forms Architecture) فناوری فرمِ جایگزین Adobe است که در آن فرم نه با آبجکتهای بومی PDF، بلکه با یک محمولهٔ XML که داخل پوستهٔ PDF جاسازی شده تعریف میشود. این فناوری برای فرمهای پیچیده و پویا طراحی شد: چیدمانهایی که با افزودن سطر بزرگ میشوند، فیلدهایی که بسته به پاسخهای قبلی ظاهر یا ناپدید میشوند، و اتصالی محکم به شِماهای دادهٔ پشتیبان.
متادیتامتادیتا یعنی داده دربارهٔ دادههای شما، اطلاعاتی که یک PDF فراتر از محتوای دیدارِ صفحه با خود حمل میکند. دو انباره اصلی وجود دارد: همان Document Information Dictionaryِ قدیمی (عنوان، نویسنده، موضوع، کلیدواژهها، نرمافزاری که آن را ساخته، و تاریخهای ایجاد و ویرایش) و XMP، یک بلوک مبتنی بر XML که همان فیلدها بهعلاوهٔ ویژگیهای غنیتر و گسترشپذیرتر را نگه میدارد.
فشردهسازیفشردهسازی همان چیزی است که حجم فایلهای PDF را قابل مدیریت نگه میدارد، و یک سند معمولاً چند روش را با هم میآمیزد چون چند نوع محتوا را با هم دارد. متن و دستورهای ترسیمِ برداری بهصورت بیاتلاف با Flate فشرده میشوند (همان الگوریتم Deflate که پشت ZIP است)، پس هر کاراکتر دقیقاً همانطور که رفته بازمیگردد.
فونتهای جاسازیشدهفونتهای جاسازیشده قلمهایی هستند که بهجای قرض گرفتن از کامپیوتری که فایل را باز میکند، درون خودِ PDF بستهبندی شدهاند. همین ویژگی است که PDF را بهراستی قابلحمل میکند: اگر فونت همراه سند سفر کند، متن همهجا یکجور رندر میشود، حتی روی دستگاهی که هرگز آن قلم را نصب نکرده.
لایهٔ متنلایهٔ متن همان بخشی از یک PDF است که کاراکترهای واقعی و ماشینخوان را نگه میدارد، محتوایی که میتوانید با مکاننما انتخابش کنید، کپی کنید، جستوجو کنید و با صدای بلند خوانده شود. یک PDFی که از یک واژهپرداز یا اپ صفحهآرایی ساخته شده این لایه را بهصورت بومی دارد، که در آن هر کاراکتر به یک موقعیت و یک فونت نگاشته شده.
واترمارکیک واترمارک، متن یا تصویری است که روی صفحههای یک PDF گذاشته میشود تا وضعیت یا مالکیت را نشان دهد، یک «DRAFT» یا «CONFIDENTIAL»ِ کمرنگ که بهصورت اریب روی صفحه کشیده شده، یک لوگوی شرکت، یا یک خط کپیرایت. این کار قصد را اعلام میکند بیآنکه محتوای زیرین را بپوشاند، معمولاً با نیمهشفاف بودن یا نشستن پشت متن اصلی.
خطیسازیخطیسازی، که Adobe آن را با نام Fast Web View بازاریابی میکند، راهی است برای بازچینش ترتیب بایتهای داخلیِ یک PDF طوری که بتواند پیش از رسیدن کل فایل نمایش داده شود. در یک PDF عادی، جدول ارجاع متقابل که هر آبجکت را نمایهگذاری میکند درست در انتها مینشیند، پس یک نمایشگر از نظر فنی به فایل کامل نیاز دارد تا بداند چیزها کجا هستند.
امنیت
استاندارد AES (مخفف Advanced Encryption Standard) همان رمز قالبی است که یک PDF محافظتشده با رمز عبور را امن میکند. وقتی سندی را قفل میکنید، استریمهای محتوای صفحه و رشتهها با AES رمزنگاری میشوند و تنها راه بازگشت به بایتهای خوانا، وارد کردن رمز عبور درست و استخراج کلید صحیح است. بدون آن، فایلِ روی دیسک فقط متن رمزشده است.
امضای الکترونیکیامضای الکترونیکی، در گستردهترین معنای حقوقی، هر دادهای است که به یک سند پیوست میشود و قصد امضاکننده برای موافقت را نشان میدهد، از یک نام تایپشده یا یک خطخطیِ کشیدهشده تا یک مهرِ پشتیبانیشده با رمزنگاری. مقررات eIDAS اتحادیهٔ اروپا اینها را به سطوحی دستهبندی میکند و این تمایز وقتی اهمیت پیدا میکند که قرار باشد یک امضا بعدها در برابر چالش بایستد.
امضای دیجیتالامضای دیجیتال همان سازوکار رمزنگارانه است که ثابت میکند چه کسی یک PDF را امضا کرده و اینکه از آن زمان هیچکس آن را تغییر نداده است. این موتور فنیای است که قویترین امضاهای الکترونیکی به آن تکیه میکنند و از رمزنگاری کلید عمومی ساخته شده، نه از هیچ تصویری از یک حرکت قلم.
تصویرها
گرافیکهای وکتور (برداری) یک تصویر را بهصورت ریاضیات توصیف میکنند، نقطهها، خطها، منحنیها و پُرشدگیها، نه بهصورت شبکهای ثابت از نقطههای رنگی. یک دایره بهصورت یک مرکز، یک شعاع و یک رنگ ذخیره میشود، پس کامپیوتر آن را در هر اندازهای که خواسته شود از نو ترسیم میکند. نتیجه، همان ویژگی تعریفکنندهٔ هنر برداری است: تا هر اندازهای بدون از دست رفتن وضوح مقیاس میخورد.
رستریک تصویر رستر، شبکهای مستطیلی از پیکسلهاست که هرکدام یک مقدار رنگ را نگه میدارند، همان مدلِ پشتِ هر عکس و هر اسکن. برخلاف یک وکتور، یک رستر وضوح بومیِ ثابتی دارد: دقیقاً همینقدر نقطه در عرض و در ارتفاع ذخیره میکند، و تمام جزئیاتش در همان شبکه پخته شده.
JPGقالب JPG (که JPEG هم نوشته میشود، بهنام Joint Photographic Experts Group که تعریفش کرد) قالب رستریِ اتلافی است که برای عکسها ساخته شده. کارش این است که تصویر را به مؤلفههای فرکانسی تبدیل میکند و آن جزئیات ظریفی را که چشم انسان کمترین احتمال دارد دلتنگشان شود دور میریزد، و اینطور یک عکس تمامرنگی را در یک فایل کوچک جا میدهد.
PNGقالب PNG (مخفف Portable Network Graphics) قالب رستریِ بیاتلاف برای گرافیکهایی با لبههای تیز و رنگ تخت است، اسکرینشاتها، لوگوها، آیکونها، دیاگرامها و هر چیزی که متن در خود دارد. بیاتلاف یعنی تصویر را دقیقاً ذخیره میکند: هر چندبار که خواستید دوباره ذخیرهاش کنید و حتی یک پیکسل هم تغییر نمیکند، درست برعکسِ زوال نسلیِ JPEG.
WebPقالب WebP یک قالب تصویری از Google است که هدفش جایگزینی هم JPEG و هم PNG با یک ظرف واحد است. ترفندش پشتیبانی از دو حالت است: فشردهسازی اتلافی برای عکسها، مثل JPEG، و فشردهسازی بیاتلاف برای گرافیکها، مثل PNG، در حالی که معمولاً در کیفیت برابر فایلهای کوچکتری از هر دوی آنها تولید میکند.
TIFFقالب TIFF (مخفف Tagged Image File Format) قالب رستریِ سنگینوزنی است که در بایگانی، اسکن و تصویربرداری حرفهای به کار میرود. نامش از ساختارش میآید: مجموعهای انعطافپذیر از برچسبها که تصویر را توصیف میکنند، و این به یک TIFF واحد اجازه میدهد دادهٔ فشردهنشده یا بیاتلاففشرده، عمق بیتیِ بالا، پروفایلهای رنگ جاسازیشده و حجم زیادی متادیتای فنی را در خود نگه دارد.
SVGقالب SVG (مخفف Scalable Vector Graphics) یک قالب برداریِ باز و مبتنی بر XML است، تصویری که بهصورت متنِ خوانا نوشته شده و شکلها، مسیرها، رنگها و متن را توصیف میکند. چون برداری است، تا هر اندازهای با لبههای کاملاً تیز مقیاس میخورد، و چون XML است، میتوان با CSS استایلش داد، انیمیشنش کرد و حتی در یک ویرایشگر متنِ ساده جستوجو یا ویرایشش کرد.
DPIواحد DPI (مخفف dots per inch، یعنی نقطه در هر اینچ) وضوح را میسنجد، اینکه چند نقطه جزئیات در هر اینچ از یک تصویر یا چاپ فشرده شده. هرچه عدد بالاتر باشد، جزئیات ظریفتر و فایل بزرگتر است. این تنها تنظیمی است که اغلب تعیین میکند یک اسکن یا یک خروجی تیز به نظر میرسد یا ناامیدکننده.