PDF शब्दावली
PDF शब्दावली: शब्द और फ़ॉर्मैट
हर PDF शब्द और फ़ॉर्मैट का असल में क्या मतलब है, सरल भाषा में। जो शब्दजाल आपके सामने आता है, समझाया गया।
फ़ॉर्मैट
PDF (Portable Document Format) एक फ़ाइल फ़ॉर्मैट है जो पेज पर हर अक्षर, रेखा और छवि की सटीक स्थिति को तय कर देता है, ताकि कोई दस्तावेज़ बिल्कुल एक जैसा दिखे — चाहे आप उसे फ़ोन पर खोलें, लैपटॉप पर या किसी प्रिंट शॉप के RIP पर। Adobe ने इसे 1993 में बनाया और 2008 में इसका विनिर्देश ISO को सौंप दिया, जहाँ यह खुला मानक ISO 32000 बन गया। यही खुलापन वजह है कि इतने सारे स्वतंत्र टूल किसी से अनुमति लिए बिना PDF पढ़ और लिख सकते हैं।
PDF/APDF/A दीर्घकालिक संग्रहण (archiving) के लिए बनाई गई ISO 19005 प्रोफ़ाइल है। उद्देश्य सीधा है: पचास साल बाद खोला गया कोई दस्तावेज़ ठीक वैसा ही दिखना चाहिए जैसा आज दिखता है — न कोई फ़ॉन्ट गायब हो, न किसी बाहरी संसाधन पर निर्भरता हो जो तब तक लुप्त हो चुका हो। इसकी गारंटी देने के लिए यह मानक हर उस चीज़ पर रोक लगाता है जो समय के साथ टूट सकती है।
PDF/UAPDF/UA (ISO 14289, जहाँ UA का अर्थ Universal Accessibility है) वह मानक है जो किसी PDF को सहायक तकनीक पर निर्भर लोगों के लिए उपयोग योग्य बनाता है। एक स्क्रीन रीडर पेज पर पड़ी स्याही का कोई अर्थ नहीं निकाल सकता; उसे नीचे एक तार्किक संरचना चाहिए होती है। PDF/UA ठीक यह परिभाषित करता है कि वह संरचना कैसे बननी चाहिए।
PDF/XPDF/X (ISO 15930) पेशेवर प्रिंटिंग और ग्राफ़िक आर्ट्स के लिए बनी प्रोफ़ाइलों का परिवार है। जब कोई फ़ाइल किसी व्यावसायिक प्रेस पर जाती है, तो अस्पष्टता महँगी पड़ती है: कोई गायब फ़ॉन्ट, वहाँ कोई RGB छवि जहाँ CMYK अपेक्षित था, या कोई अपरिभाषित ट्रिम बॉक्स पूरे एक प्रिंट रन को बर्बाद कर सकता है। PDF/X हर प्रिंट-महत्वपूर्ण विवरण को स्पष्ट करने पर बाध्य करके उस अस्पष्टता को हटा देता है।
अवधारणाएँ
OCR (Optical Character Recognition) टेक्स्ट की तस्वीर को असली, चुनने योग्य अक्षरों में बदल देता है। कोई स्कैन किया हुआ पेज या किसी दस्तावेज़ की फ़ोटो कंप्यूटर के लिए महज़ पिक्सेलों की एक जाली है: उसमें कोई टेक्स्ट नहीं होता, सिर्फ़ एक छवि होती है जो संयोग से शब्दों जैसी दिखती है। OCR अक्षरों के आकार का विश्लेषण करता है और उनके पीछे छिपी अक्षरों की श्रृंखला को फिर से बना देता है।
AcroFormAcroForm, PDF की अपनी अंतर्निहित फ़ॉर्म तकनीक है — वह तरह का इंटरैक्टिव फ़ॉर्म जो 1990 के दशक के अंत से इस फ़ॉर्मैट का हिस्सा रहा है। टैक्स रिटर्न या किसी आवेदन फ़ॉर्म में जो भरने योग्य फ़ील्ड आप देखते हैं — टेक्स्ट बॉक्स, चेकबॉक्स, रेडियो बटन, ड्रॉपडाउन और हस्ताक्षर फ़ील्ड — वे AcroForm वस्तुएँ हैं, जो सीधे PDF की वस्तु संरचना में परिभाषित होती हैं।
XFAXFA (XML Forms Architecture) Adobe की वैकल्पिक फ़ॉर्म तकनीक है, जिसमें फ़ॉर्म को मूल PDF वस्तुओं से नहीं बल्कि PDF आवरण के अंदर एम्बेड किए गए एक XML payload से परिभाषित किया जाता है। इसे जटिल, गतिशील फ़ॉर्मों के लिए बनाया गया था: ऐसे लेआउट जो पंक्तियाँ जोड़ते ही बढ़ते जाएँ, ऐसे फ़ील्ड जो पहले के उत्तरों के आधार पर प्रकट या लुप्त हों, और बैक-एंड डेटा स्कीमा के साथ कसी हुई बाइंडिंग।
मेटाडेटामेटाडेटा आपके डेटा के बारे में डेटा है — वह जानकारी जो एक PDF दृश्य पेज सामग्री से परे अपने साथ रखती है। इसके दो मुख्य भंडार हैं: विरासती Document Information Dictionary (शीर्षक, लेखक, विषय, कीवर्ड, इसे बनाने वाला सॉफ़्टवेयर, और निर्माण व संशोधन की तिथियाँ) और XMP, एक XML-आधारित खंड जो वही फ़ील्ड तथा साथ ही समृद्ध, विस्तारणीय गुण रखता है।
संपीड़नसंपीड़न (compression) ही वह है जो PDF फ़ाइलों के आकार को काबू में रखता है, और एक ही दस्तावेज़ आमतौर पर कई विधियाँ मिलाता है क्योंकि वह कई तरह की सामग्री मिलाता है। टेक्स्ट और वेक्टर ड्रॉइंग के निर्देश Flate (वही Deflate एल्गोरिदम जो ZIP के पीछे है) से बिना हानि के संपीड़ित होते हैं, इसलिए हर अक्षर ठीक वैसा ही लौटता है जैसा गया था।
एम्बेडेड फ़ॉन्टएम्बेडेड फ़ॉन्ट वे टाइपफ़ेस हैं जो PDF के भीतर ही पैक किए जाते हैं, बजाय इसके कि उन्हें खोलने वाले कंप्यूटर से उधार लिया जाए। यही वह विशेषता है जो PDF को वाकई पोर्टेबल बनाती है: यदि फ़ॉन्ट दस्तावेज़ के साथ-साथ चले, तो टेक्स्ट हर जगह एक जैसा रेंडर होता है, उस मशीन पर भी जिसमें वह टाइपफ़ेस कभी इंस्टॉल ही नहीं हुआ।
टेक्स्ट परतटेक्स्ट परत (text layer) PDF का वह हिस्सा है जो असली, मशीन-पठनीय अक्षर रखता है — वह सामग्री जिसे आप कर्सर से चुन सकते हैं, कॉपी कर सकते हैं, खोज सकते हैं और ज़ोर से पढ़वा सकते हैं। किसी वर्ड प्रोसेसर या पेज-लेआउट ऐप से बनी PDF में यह परत स्वाभाविक रूप से होती है, जिसमें हर अक्षर एक स्थिति और एक फ़ॉन्ट से मानचित्रित होता है।
वॉटरमार्कवॉटरमार्क किसी PDF के पेजों पर रखा गया टेक्स्ट या छवि है जो स्थिति या स्वामित्व चिह्नित करता है — पेज पर तिरछा पड़ा कोई फीका "DRAFT" या "CONFIDENTIAL", कोई कंपनी लोगो, या कोई कॉपीराइट पंक्ति। यह अंतर्निहित सामग्री को छुपाए बिना मंशा का संकेत देता है, आमतौर पर अर्ध-पारदर्शी होकर या मुख्य टेक्स्ट के पीछे बैठकर।
रैखिकीकरणरैखिकीकरण (Linearization), जिसे Adobe ने Fast Web View के रूप में बाज़ार में उतारा, PDF के आंतरिक बाइट क्रम को इस तरह पुनर्व्यवस्थित करने का एक तरीका है कि पूरी फ़ाइल आने से पहले ही उसे दिखाया जा सके। एक सामान्य PDF में हर वस्तु को अनुक्रमित करने वाली क्रॉस-रेफ़रेंस टेबल बिल्कुल अंत में बैठती है, इसलिए किसी व्यूअर को यह जानने के लिए तकनीकी रूप से पूरी फ़ाइल चाहिए होती है कि चीज़ें कहाँ हैं।
सुरक्षा
AES (Advanced Encryption Standard) वह ब्लॉक सिफ़र है जो पासवर्ड-संरक्षित PDF को सुरक्षित करता है। जब आप किसी दस्तावेज़ को लॉक करते हैं, तो पेज की सामग्री की धाराएँ (streams) और स्ट्रिंग्स AES से एन्क्रिप्ट हो जाती हैं, और पठनीय बाइट्स तक वापस पहुँचने का एकमात्र रास्ता सही पासवर्ड देना और सही कुंजी निकालना है। उसके बिना, डिस्क पर पड़ी फ़ाइल महज़ सिफ़रटेक्स्ट है।
इलेक्ट्रॉनिक हस्ताक्षरइलेक्ट्रॉनिक हस्ताक्षर, व्यापकतम कानूनी अर्थ में, किसी दस्तावेज़ से जुड़ा कोई भी डेटा है जो हस्ताक्षरकर्ता की सहमति देने की मंशा दर्शाता है — एक टाइप किए नाम या खींची गई आड़ी-तिरछी रेखा से लेकर क्रिप्टोग्राफ़िक रूप से समर्थित मुहर तक। EU का eIDAS विनियमन इन्हें स्तरों में बाँटता है, और जब कोई हस्ताक्षर बाद में कसौटी पर खरा उतरना हो तो यह भेद मायने रखता है।
डिजिटल हस्ताक्षरडिजिटल हस्ताक्षर वह क्रिप्टोग्राफ़िक तंत्र है जो यह सिद्ध करता है कि किसी PDF पर किसने हस्ताक्षर किए और तब से किसी ने उसे बदला नहीं है। यह वही तकनीकी इंजन है जिस पर सबसे मज़बूत इलेक्ट्रॉनिक हस्ताक्षर टिके होते हैं, और यह किसी कलम के निशान की तस्वीर के बजाय सार्वजनिक-कुंजी क्रिप्टोग्राफ़ी से बना होता है।
छवियाँ
वेक्टर ग्राफ़िक्स किसी छवि को गणित के रूप में वर्णित करते हैं — बिंदु, रेखाएँ, वक्र और भराव — न कि रंगीन बिंदुओं की किसी निश्चित जाली के रूप में। एक वृत्त एक केंद्र, एक त्रिज्या और एक रंग के रूप में संग्रहीत होता है, इसलिए कंप्यूटर उसे जिस भी आकार में माँगा जाए उसी पर दोबारा खींच देता है। इसका परिणाम वेक्टर कला का परिभाषक गुण है: यह बिना किसी तीक्ष्णता-हानि के किसी भी आकार तक स्केल होती है।
रैस्टररैस्टर छवि पिक्सेलों की एक आयताकार जाली है, जिनमें से हर एक कोई रंग मान रखता है — यही मॉडल हर तस्वीर और स्कैन के पीछे है। किसी वेक्टर के विपरीत, एक रैस्टर का एक निश्चित मूल रिज़ॉल्यूशन होता है: यह ठीक इतने बिंदु आड़े और इतने खड़े संग्रहीत करता है, और इसका सारा विवरण उसी जाली में पका हुआ होता है।
JPGJPG (इसे JPEG भी लिखा जाता है, उस Joint Photographic Experts Group के नाम पर जिसने इसे परिभाषित किया) तस्वीरों के लिए बना हानिपूर्ण (lossy) रैस्टर फ़ॉर्मैट है। यह छवि को आवृत्ति घटकों में बदलकर और वह बारीक विवरण फेंककर काम करता है जिसे मानव आँख चूकने की सबसे कम संभावना रखती है, और इसी तरह यह एक पूर्ण-रंगीन तस्वीर को एक छोटी फ़ाइल में निचोड़ देता है।
PNGPNG (Portable Network Graphics) तीक्ष्ण किनारों और सपाट रंग वाले ग्राफ़िक्स के लिए बिना-हानि (lossless) रैस्टर फ़ॉर्मैट है — स्क्रीनशॉट, लोगो, आइकन, आरेख और टेक्स्ट वाली कोई भी चीज़। बिना-हानि का अर्थ है कि यह छवि को ठीक-ठीक संग्रहीत करता है: इसे जितनी बार चाहें दोबारा सहेजें और एक भी पिक्सेल नहीं बदलता — JPEG के पीढ़ीगत क्षय के बिल्कुल उलट।
WebPWebP, Google का एक छवि फ़ॉर्मैट है जिसका लक्ष्य JPEG और PNG दोनों को एक ही कंटेनर से बदलना है। इसकी चतुराई दो मोड का समर्थन करना है: तस्वीरों के लिए हानिपूर्ण संपीड़न, JPEG की तरह, और ग्राफ़िक्स के लिए बिना-हानि संपीड़न, PNG की तरह — जबकि तुलनीय गुणवत्ता पर आमतौर पर दोनों से छोटी फ़ाइलें बनाते हुए।
TIFFTIFF (Tagged Image File Format) संग्रहण, स्कैनिंग और पेशेवर इमेजिंग में इस्तेमाल होने वाला भारी-भरकम रैस्टर फ़ॉर्मैट है। इसका नाम इसकी संरचना से आता है: छवि का वर्णन करने वाले टैगों का एक लचीला समुच्चय, जो एक ही TIFF को असंपीड़ित या बिना-हानि संपीड़ित डेटा, ऊँची बिट गहराई, एम्बेड किए रंग प्रोफ़ाइल और बहुत-सा तकनीकी मेटाडेटा रखने देता है।
SVGSVG (Scalable Vector Graphics) एक खुला, XML-आधारित वेक्टर फ़ॉर्मैट है — एक छवि जो पठनीय टेक्स्ट के रूप में लिखी जाती है, जो आकृतियाँ, paths, रंग और टेक्स्ट वर्णित करता है। चूँकि यह वेक्टर है, यह बिल्कुल कुरकुरे किनारों के साथ किसी भी आकार तक स्केल होता है, और चूँकि यह XML है, इसे CSS से शैलीबद्ध किया जा सकता है, एनिमेट किया जा सकता है, और एक सादे टेक्स्ट संपादक में खोजा या संपादित भी किया जा सकता है।
DPIDPI (dots per inch) रिज़ॉल्यूशन मापता है — किसी छवि या प्रिंट के हर इंच में विवरण के कितने बिंदु ठुँसे हैं। संख्या जितनी ऊँची, विवरण उतना बारीक और फ़ाइल उतनी बड़ी। यह वह एकमात्र सेटिंग है जो सबसे अक्सर तय करती है कि कोई स्कैन या निर्यात कुरकुरा दिखे या निराशाजनक।