PDF शब्दावली

PDF शब्दावली: शब्द और फ़ॉर्मैट

हर PDF शब्द और फ़ॉर्मैट का असल में क्या मतलब है, सरल भाषा में। जो शब्दजाल आपके सामने आता है, समझाया गया।

फ़ॉर्मैट

PDF (Portable Document Format) एक फ़ाइल फ़ॉर्मैट है जो पेज पर हर अक्षर, रेखा और छवि की सटीक स्थिति को तय कर देता है, ताकि कोई दस्तावेज़ बिल्कुल एक जैसा दिखे — चाहे आप उसे फ़ोन पर खोलें, लैपटॉप पर या किसी प्रिंट शॉप के RIP पर। Adobe ने इसे 1993 में बनाया और 2008 में इसका विनिर्देश ISO को सौंप दिया, जहाँ यह खुला मानक ISO 32000 बन गया। यही खुलापन वजह है कि इतने सारे स्वतंत्र टूल किसी से अनुमति लिए बिना PDF पढ़ और लिख सकते हैं।

PDF/A

PDF/A दीर्घकालिक संग्रहण (archiving) के लिए बनाई गई ISO 19005 प्रोफ़ाइल है। उद्देश्य सीधा है: पचास साल बाद खोला गया कोई दस्तावेज़ ठीक वैसा ही दिखना चाहिए जैसा आज दिखता है — न कोई फ़ॉन्ट गायब हो, न किसी बाहरी संसाधन पर निर्भरता हो जो तब तक लुप्त हो चुका हो। इसकी गारंटी देने के लिए यह मानक हर उस चीज़ पर रोक लगाता है जो समय के साथ टूट सकती है।

PDF/UA

PDF/UA (ISO 14289, जहाँ UA का अर्थ Universal Accessibility है) वह मानक है जो किसी PDF को सहायक तकनीक पर निर्भर लोगों के लिए उपयोग योग्य बनाता है। एक स्क्रीन रीडर पेज पर पड़ी स्याही का कोई अर्थ नहीं निकाल सकता; उसे नीचे एक तार्किक संरचना चाहिए होती है। PDF/UA ठीक यह परिभाषित करता है कि वह संरचना कैसे बननी चाहिए।

PDF/X

PDF/X (ISO 15930) पेशेवर प्रिंटिंग और ग्राफ़िक आर्ट्स के लिए बनी प्रोफ़ाइलों का परिवार है। जब कोई फ़ाइल किसी व्यावसायिक प्रेस पर जाती है, तो अस्पष्टता महँगी पड़ती है: कोई गायब फ़ॉन्ट, वहाँ कोई RGB छवि जहाँ CMYK अपेक्षित था, या कोई अपरिभाषित ट्रिम बॉक्स पूरे एक प्रिंट रन को बर्बाद कर सकता है। PDF/X हर प्रिंट-महत्वपूर्ण विवरण को स्पष्ट करने पर बाध्य करके उस अस्पष्टता को हटा देता है।

अवधारणाएँ

OCR

OCR (Optical Character Recognition) टेक्स्ट की तस्वीर को असली, चुनने योग्य अक्षरों में बदल देता है। कोई स्कैन किया हुआ पेज या किसी दस्तावेज़ की फ़ोटो कंप्यूटर के लिए महज़ पिक्सेलों की एक जाली है: उसमें कोई टेक्स्ट नहीं होता, सिर्फ़ एक छवि होती है जो संयोग से शब्दों जैसी दिखती है। OCR अक्षरों के आकार का विश्लेषण करता है और उनके पीछे छिपी अक्षरों की श्रृंखला को फिर से बना देता है।

AcroForm

AcroForm, PDF की अपनी अंतर्निहित फ़ॉर्म तकनीक है — वह तरह का इंटरैक्टिव फ़ॉर्म जो 1990 के दशक के अंत से इस फ़ॉर्मैट का हिस्सा रहा है। टैक्स रिटर्न या किसी आवेदन फ़ॉर्म में जो भरने योग्य फ़ील्ड आप देखते हैं — टेक्स्ट बॉक्स, चेकबॉक्स, रेडियो बटन, ड्रॉपडाउन और हस्ताक्षर फ़ील्ड — वे AcroForm वस्तुएँ हैं, जो सीधे PDF की वस्तु संरचना में परिभाषित होती हैं।

XFA

XFA (XML Forms Architecture) Adobe की वैकल्पिक फ़ॉर्म तकनीक है, जिसमें फ़ॉर्म को मूल PDF वस्तुओं से नहीं बल्कि PDF आवरण के अंदर एम्बेड किए गए एक XML payload से परिभाषित किया जाता है। इसे जटिल, गतिशील फ़ॉर्मों के लिए बनाया गया था: ऐसे लेआउट जो पंक्तियाँ जोड़ते ही बढ़ते जाएँ, ऐसे फ़ील्ड जो पहले के उत्तरों के आधार पर प्रकट या लुप्त हों, और बैक-एंड डेटा स्कीमा के साथ कसी हुई बाइंडिंग।

मेटाडेटा

मेटाडेटा आपके डेटा के बारे में डेटा है — वह जानकारी जो एक PDF दृश्य पेज सामग्री से परे अपने साथ रखती है। इसके दो मुख्य भंडार हैं: विरासती Document Information Dictionary (शीर्षक, लेखक, विषय, कीवर्ड, इसे बनाने वाला सॉफ़्टवेयर, और निर्माण व संशोधन की तिथियाँ) और XMP, एक XML-आधारित खंड जो वही फ़ील्ड तथा साथ ही समृद्ध, विस्तारणीय गुण रखता है।

संपीड़न

संपीड़न (compression) ही वह है जो PDF फ़ाइलों के आकार को काबू में रखता है, और एक ही दस्तावेज़ आमतौर पर कई विधियाँ मिलाता है क्योंकि वह कई तरह की सामग्री मिलाता है। टेक्स्ट और वेक्टर ड्रॉइंग के निर्देश Flate (वही Deflate एल्गोरिदम जो ZIP के पीछे है) से बिना हानि के संपीड़ित होते हैं, इसलिए हर अक्षर ठीक वैसा ही लौटता है जैसा गया था।

एम्बेडेड फ़ॉन्ट

एम्बेडेड फ़ॉन्ट वे टाइपफ़ेस हैं जो PDF के भीतर ही पैक किए जाते हैं, बजाय इसके कि उन्हें खोलने वाले कंप्यूटर से उधार लिया जाए। यही वह विशेषता है जो PDF को वाकई पोर्टेबल बनाती है: यदि फ़ॉन्ट दस्तावेज़ के साथ-साथ चले, तो टेक्स्ट हर जगह एक जैसा रेंडर होता है, उस मशीन पर भी जिसमें वह टाइपफ़ेस कभी इंस्टॉल ही नहीं हुआ।

टेक्स्ट परत

टेक्स्ट परत (text layer) PDF का वह हिस्सा है जो असली, मशीन-पठनीय अक्षर रखता है — वह सामग्री जिसे आप कर्सर से चुन सकते हैं, कॉपी कर सकते हैं, खोज सकते हैं और ज़ोर से पढ़वा सकते हैं। किसी वर्ड प्रोसेसर या पेज-लेआउट ऐप से बनी PDF में यह परत स्वाभाविक रूप से होती है, जिसमें हर अक्षर एक स्थिति और एक फ़ॉन्ट से मानचित्रित होता है।

वॉटरमार्क

वॉटरमार्क किसी PDF के पेजों पर रखा गया टेक्स्ट या छवि है जो स्थिति या स्वामित्व चिह्नित करता है — पेज पर तिरछा पड़ा कोई फीका "DRAFT" या "CONFIDENTIAL", कोई कंपनी लोगो, या कोई कॉपीराइट पंक्ति। यह अंतर्निहित सामग्री को छुपाए बिना मंशा का संकेत देता है, आमतौर पर अर्ध-पारदर्शी होकर या मुख्य टेक्स्ट के पीछे बैठकर।

रैखिकीकरण

रैखिकीकरण (Linearization), जिसे Adobe ने Fast Web View के रूप में बाज़ार में उतारा, PDF के आंतरिक बाइट क्रम को इस तरह पुनर्व्यवस्थित करने का एक तरीका है कि पूरी फ़ाइल आने से पहले ही उसे दिखाया जा सके। एक सामान्य PDF में हर वस्तु को अनुक्रमित करने वाली क्रॉस-रेफ़रेंस टेबल बिल्कुल अंत में बैठती है, इसलिए किसी व्यूअर को यह जानने के लिए तकनीकी रूप से पूरी फ़ाइल चाहिए होती है कि चीज़ें कहाँ हैं।

सुरक्षा

AES एन्क्रिप्शन

AES (Advanced Encryption Standard) वह ब्लॉक सिफ़र है जो पासवर्ड-संरक्षित PDF को सुरक्षित करता है। जब आप किसी दस्तावेज़ को लॉक करते हैं, तो पेज की सामग्री की धाराएँ (streams) और स्ट्रिंग्स AES से एन्क्रिप्ट हो जाती हैं, और पठनीय बाइट्स तक वापस पहुँचने का एकमात्र रास्ता सही पासवर्ड देना और सही कुंजी निकालना है। उसके बिना, डिस्क पर पड़ी फ़ाइल महज़ सिफ़रटेक्स्ट है।

इलेक्ट्रॉनिक हस्ताक्षर

इलेक्ट्रॉनिक हस्ताक्षर, व्यापकतम कानूनी अर्थ में, किसी दस्तावेज़ से जुड़ा कोई भी डेटा है जो हस्ताक्षरकर्ता की सहमति देने की मंशा दर्शाता है — एक टाइप किए नाम या खींची गई आड़ी-तिरछी रेखा से लेकर क्रिप्टोग्राफ़िक रूप से समर्थित मुहर तक। EU का eIDAS विनियमन इन्हें स्तरों में बाँटता है, और जब कोई हस्ताक्षर बाद में कसौटी पर खरा उतरना हो तो यह भेद मायने रखता है।

डिजिटल हस्ताक्षर

डिजिटल हस्ताक्षर वह क्रिप्टोग्राफ़िक तंत्र है जो यह सिद्ध करता है कि किसी PDF पर किसने हस्ताक्षर किए और तब से किसी ने उसे बदला नहीं है। यह वही तकनीकी इंजन है जिस पर सबसे मज़बूत इलेक्ट्रॉनिक हस्ताक्षर टिके होते हैं, और यह किसी कलम के निशान की तस्वीर के बजाय सार्वजनिक-कुंजी क्रिप्टोग्राफ़ी से बना होता है।

छवियाँ

वेक्टर

वेक्टर ग्राफ़िक्स किसी छवि को गणित के रूप में वर्णित करते हैं — बिंदु, रेखाएँ, वक्र और भराव — न कि रंगीन बिंदुओं की किसी निश्चित जाली के रूप में। एक वृत्त एक केंद्र, एक त्रिज्या और एक रंग के रूप में संग्रहीत होता है, इसलिए कंप्यूटर उसे जिस भी आकार में माँगा जाए उसी पर दोबारा खींच देता है। इसका परिणाम वेक्टर कला का परिभाषक गुण है: यह बिना किसी तीक्ष्णता-हानि के किसी भी आकार तक स्केल होती है।

रैस्टर

रैस्टर छवि पिक्सेलों की एक आयताकार जाली है, जिनमें से हर एक कोई रंग मान रखता है — यही मॉडल हर तस्वीर और स्कैन के पीछे है। किसी वेक्टर के विपरीत, एक रैस्टर का एक निश्चित मूल रिज़ॉल्यूशन होता है: यह ठीक इतने बिंदु आड़े और इतने खड़े संग्रहीत करता है, और इसका सारा विवरण उसी जाली में पका हुआ होता है।

JPG

JPG (इसे JPEG भी लिखा जाता है, उस Joint Photographic Experts Group के नाम पर जिसने इसे परिभाषित किया) तस्वीरों के लिए बना हानिपूर्ण (lossy) रैस्टर फ़ॉर्मैट है। यह छवि को आवृत्ति घटकों में बदलकर और वह बारीक विवरण फेंककर काम करता है जिसे मानव आँख चूकने की सबसे कम संभावना रखती है, और इसी तरह यह एक पूर्ण-रंगीन तस्वीर को एक छोटी फ़ाइल में निचोड़ देता है।

PNG

PNG (Portable Network Graphics) तीक्ष्ण किनारों और सपाट रंग वाले ग्राफ़िक्स के लिए बिना-हानि (lossless) रैस्टर फ़ॉर्मैट है — स्क्रीनशॉट, लोगो, आइकन, आरेख और टेक्स्ट वाली कोई भी चीज़। बिना-हानि का अर्थ है कि यह छवि को ठीक-ठीक संग्रहीत करता है: इसे जितनी बार चाहें दोबारा सहेजें और एक भी पिक्सेल नहीं बदलता — JPEG के पीढ़ीगत क्षय के बिल्कुल उलट।

WebP

WebP, Google का एक छवि फ़ॉर्मैट है जिसका लक्ष्य JPEG और PNG दोनों को एक ही कंटेनर से बदलना है। इसकी चतुराई दो मोड का समर्थन करना है: तस्वीरों के लिए हानिपूर्ण संपीड़न, JPEG की तरह, और ग्राफ़िक्स के लिए बिना-हानि संपीड़न, PNG की तरह — जबकि तुलनीय गुणवत्ता पर आमतौर पर दोनों से छोटी फ़ाइलें बनाते हुए।

TIFF

TIFF (Tagged Image File Format) संग्रहण, स्कैनिंग और पेशेवर इमेजिंग में इस्तेमाल होने वाला भारी-भरकम रैस्टर फ़ॉर्मैट है। इसका नाम इसकी संरचना से आता है: छवि का वर्णन करने वाले टैगों का एक लचीला समुच्चय, जो एक ही TIFF को असंपीड़ित या बिना-हानि संपीड़ित डेटा, ऊँची बिट गहराई, एम्बेड किए रंग प्रोफ़ाइल और बहुत-सा तकनीकी मेटाडेटा रखने देता है।

SVG

SVG (Scalable Vector Graphics) एक खुला, XML-आधारित वेक्टर फ़ॉर्मैट है — एक छवि जो पठनीय टेक्स्ट के रूप में लिखी जाती है, जो आकृतियाँ, paths, रंग और टेक्स्ट वर्णित करता है। चूँकि यह वेक्टर है, यह बिल्कुल कुरकुरे किनारों के साथ किसी भी आकार तक स्केल होता है, और चूँकि यह XML है, इसे CSS से शैलीबद्ध किया जा सकता है, एनिमेट किया जा सकता है, और एक सादे टेक्स्ट संपादक में खोजा या संपादित भी किया जा सकता है।

DPI

DPI (dots per inch) रिज़ॉल्यूशन मापता है — किसी छवि या प्रिंट के हर इंच में विवरण के कितने बिंदु ठुँसे हैं। संख्या जितनी ऊँची, विवरण उतना बारीक और फ़ाइल उतनी बड़ी। यह वह एकमात्र सेटिंग है जो सबसे अक्सर तय करती है कि कोई स्कैन या निर्यात कुरकुरा दिखे या निराशाजनक।