PDF শব্দকোষ
PDF শব্দকোষ: পরিভাষা ও ফরম্যাট
প্রতিটি PDF পরিভাষা ও ফরম্যাট আসলে কী বোঝায়, সহজ ভাষায়। আপনার সামনে যে জটিল শব্দগুলো আসে, তা ব্যাখ্যা করা।
ফরম্যাট
PDF (Portable Document Format) এমন একটি ফাইল ফরম্যাট যা একটি পৃষ্ঠার প্রতিটি অক্ষর, রেখা ও ছবির অবস্থান হুবহু স্থির করে রাখে, ফলে আপনি নথিটি ফোনে খুলুন, ল্যাপটপে খুলুন, কিংবা কোনো প্রিন্ট শপের RIP-এ খুলুন — দেখতে একদম একই রকম থাকে। Adobe ১৯৯৩ সালে এটি তৈরি করে এবং ২০০৮ সালে এর স্পেসিফিকেশন ISO-র হাতে তুলে দেয়, যেখানে এটি উন্মুক্ত মান ISO 32000-এ পরিণত হয়। এই উন্মুক্ততার কারণেই এত স্বাধীন টুল কারও অনুমতি ছাড়াই PDF পড়তে ও লিখতে পারে।
PDF/APDF/A হলো দীর্ঘমেয়াদি সংরক্ষণের (archiving) জন্য তৈরি ISO 19005 প্রোফাইল। লক্ষ্যটি সহজ: পঞ্চাশ বছর পরে খোলা কোনো নথি আজ যেমন দেখায় ঠিক তেমনই দেখাবে — কোনো ফন্ট হারিয়ে যাবে না এবং এমন কোনো বাইরের সম্পদের উপর নির্ভরতা থাকবে না যা ততদিনে উধাও হয়ে যেতে পারে। এটি নিশ্চিত করতে এই মানটি এমন সব কিছু নিষিদ্ধ করে যা সময়ের সঙ্গে ভেঙে পড়তে পারে।
PDF/UAPDF/UA (ISO 14289, যেখানে UA মানে Universal Accessibility) হলো সেই মান যা একটি PDF-কে সহায়ক প্রযুক্তির উপর নির্ভরশীল মানুষের জন্য ব্যবহারযোগ্য করে তোলে। একটি স্ক্রিন রিডার পৃষ্ঠার কালির কোনো অর্থ বুঝতে পারে না; এর নিচে একটি যৌক্তিক কাঠামো দরকার। PDF/UA ঠিক সংজ্ঞায়িত করে দেয় সেই কাঠামোটি কীভাবে গড়তে হবে।
PDF/XPDF/X (ISO 15930) হলো পেশাদার প্রিন্টিং ও গ্রাফিক আর্টসের জন্য তৈরি প্রোফাইলগুলোর পরিবার। কোনো ফাইল যখন বাণিজ্যিক প্রেসে যায়, তখন অস্পষ্টতা ব্যয়বহুল: একটি হারানো ফন্ট, CMYK প্রত্যাশিত জায়গায় একটি RGB ছবি, কিংবা একটি অসংজ্ঞায়িত ট্রিম বক্স গোটা একটি প্রিন্ট রান নষ্ট করে দিতে পারে। PDF/X প্রতিটি প্রিন্ট-গুরুত্বপূর্ণ বিবরণ স্পষ্ট করতে বাধ্য করে সেই অস্পষ্টতা দূর করে।
ধারণা
OCR (Optical Character Recognition) টেক্সটের ছবিকে প্রকৃত, নির্বাচনযোগ্য অক্ষরে রূপান্তরিত করে। একটি স্ক্যান করা পৃষ্ঠা বা কোনো নথির ছবি কম্পিউটারের কাছে নিছক পিক্সেলের একটি গ্রিড: এতে কোনো টেক্সট নেই, কেবল একটি ছবি যা দেখতে শব্দের মতো লাগে। OCR অক্ষরের আকৃতি বিশ্লেষণ করে নিচের অক্ষরগুলোর স্ট্রিং পুনর্গঠন করে।
AcroFormএকটি AcroForm হলো PDF-এর নিজস্ব, অন্তর্নির্মিত ফর্ম প্রযুক্তি — সেই ধরনের ইন্টারঅ্যাক্টিভ ফর্ম যা ১৯৯০-এর দশকের শেষ থেকে এই ফরম্যাটের অংশ। কর-রিটার্ন বা আবেদনপত্রে আপনি যে পূরণযোগ্য ক্ষেত্রগুলো দেখেন — টেক্সট বক্স, চেকবক্স, রেডিও বোতাম, ড্রপডাউন ও স্বাক্ষর ক্ষেত্র — সেগুলো PDF-এর অবজেক্ট কাঠামোতে সরাসরি সংজ্ঞায়িত AcroForm অবজেক্ট।
XFAXFA (XML Forms Architecture) হলো Adobe-র বিকল্প ফর্ম প্রযুক্তি, যেখানে ফর্মটি PDF-এর নিজস্ব অবজেক্ট দিয়ে নয়, বরং PDF মোড়কের ভেতরে এমবেড করা একটি XML পেলোড দিয়ে সংজ্ঞায়িত হয়। এটি জটিল, গতিশীল ফর্মের জন্য নকশা করা হয়েছিল: এমন লেআউট যা আপনি সারি যোগ করার সঙ্গে বাড়ে, আগের উত্তরের ভিত্তিতে যে ক্ষেত্রগুলো উপস্থিত হয় বা অদৃশ্য হয়, এবং ব্যাক-এন্ড ডেটা স্কিমার সঙ্গে নিবিড় সংযোগ।
মেটাডেটামেটাডেটা হলো আপনার ডেটা সম্পর্কের ডেটা — দৃশ্যমান পৃষ্ঠার কনটেন্ট ছাড়িয়ে একটি PDF যে তথ্য বহন করে। এর প্রধান দুটি ভাণ্ডার আছে: পুরনো Document Information Dictionary (শিরোনাম, লেখক, বিষয়, কীওয়ার্ড, যে সফটওয়্যার এটি তৈরি করেছে, এবং তৈরি ও পরিবর্তনের তারিখ) এবং XMP, একটি XML-ভিত্তিক ব্লক যা একই ক্ষেত্রগুলোর সঙ্গে আরও সমৃদ্ধ, সম্প্রসারণযোগ্য বৈশিষ্ট্য ধরে রাখে।
সংকোচনসংকোচনই (compression) PDF ফাইলের আকার নিয়ন্ত্রণে রাখে, এবং একটি নথি সাধারণত কয়েকটি পদ্ধতি মিশিয়ে ব্যবহার করে কারণ এতে কয়েক ধরনের কনটেন্ট মেশানো থাকে। টেক্সট ও ভেক্টর অঙ্কনের নির্দেশগুলো Flate (ZIP-এর পেছনের সেই একই Deflate অ্যালগরিদম) দিয়ে ক্ষতিহীনভাবে সংকুচিত হয়, ফলে প্রতিটি অক্ষর যেমন গিয়েছিল ঠিক তেমনই ফিরে আসে।
এমবেডেড ফন্টএমবেডেড ফন্ট হলো এমন টাইপফেস যা ফাইলটি যে কম্পিউটারে খোলা হয় তার থেকে ধার না করে PDF-এর ভেতরেই প্যাকেজ করা থাকে। এই বৈশিষ্ট্যটিই PDF-কে সত্যিকারের বহনযোগ্য করে তোলে: ফন্ট যদি নথির সঙ্গে যায়, তবে টেক্সট সর্বত্র একই রকম রেন্ডার হয়, এমনকি এমন মেশিনেও যেখানে সেই টাইপফেস কখনও ইনস্টল হয়নি।
টেক্সট স্তরটেক্সট স্তর হলো একটি PDF-এর সেই অংশ যা প্রকৃত, মেশিন-পাঠযোগ্য অক্ষর ধরে রাখে — যে কনটেন্ট আপনি কার্সার দিয়ে নির্বাচন, কপি, অনুসন্ধান ও সশব্দে পড়াতে পারেন। একটি ওয়ার্ড প্রসেসর বা পেজ-লেআউট অ্যাপ থেকে তৈরি একটি PDF-এ এই স্তরটি স্বভাবতই থাকে, যেখানে প্রতিটি অক্ষর একটি অবস্থান ও একটি ফন্টে মানচিত্রিত।
ওয়াটারমার্কএকটি ওয়াটারমার্ক হলো একটি PDF-এর পৃষ্ঠাগুলোর উপর বসানো টেক্সট বা ছবি, যা অবস্থা বা মালিকানা চিহ্নিত করে — পৃষ্ঠা জুড়ে কোনাকুনি ফিকে একটি "DRAFT" বা "CONFIDENTIAL", একটি কোম্পানি লোগো, বা একটি কপিরাইট লাইন। এটি নিচের কনটেন্ট ঢেকে না দিয়ে অভিপ্রায় জানায়, সাধারণত আধা-স্বচ্ছ হয়ে বা মূল টেক্সটের পেছনে বসে।
লিনিয়ারাইজেশনলিনিয়ারাইজেশন, যা Adobe Fast Web View নামে বাজারজাত করে, একটি PDF-এর অভ্যন্তরীণ বাইট-ক্রম পুনর্বিন্যাস করার একটি উপায় যাতে গোটা ফাইল এসে পৌঁছানোর আগেই এটি প্রদর্শন করা যায়। একটি সাধারণ PDF-এ প্রতিটি অবজেক্টের সূচি রাখা ক্রস-রেফারেন্স টেবিলটি একদম শেষে বসে, ফলে কোথায় কী আছে জানতে একটি ভিউয়ারের কারিগরিভাবে পুরো ফাইলটি দরকার।
নিরাপত্তা
AES (Advanced Encryption Standard) হলো সেই ব্লক সাইফার যা একটি পাসওয়ার্ড-সুরক্ষিত PDF-কে নিরাপদ করে। আপনি যখন একটি নথি লক করেন, পৃষ্ঠার কনটেন্ট স্ট্রিম ও স্ট্রিংগুলো AES দিয়ে এনক্রিপ্ট হয়, এবং পাঠযোগ্য বাইটে ফেরার একমাত্র উপায় হলো সঠিক পাসওয়ার্ড দেওয়া ও সঠিক কী তৈরি করা। সেটি ছাড়া ডিস্কে থাকা ফাইলটি নিছক সাইফারটেক্সট।
ইলেকট্রনিক স্বাক্ষরএকটি ইলেকট্রনিক স্বাক্ষর, বিস্তৃততম আইনি অর্থে, একটি নথির সঙ্গে যুক্ত এমন যেকোনো ডেটা যা স্বাক্ষরকারীর সম্মতির অভিপ্রায় নির্দেশ করে — একটি টাইপ করা নাম বা আঁকা একটি আঁকিবুঁকি থেকে শুরু করে ক্রিপ্টোগ্রাফিকভাবে সমর্থিত একটি সিল পর্যন্ত। EU-র eIDAS প্রবিধান এগুলোকে কয়েকটি স্তরে ভাগ করে, এবং পরে যখন একটি স্বাক্ষরকে টিকে থাকতে হয় তখন এই পার্থক্য গুরুত্বপূর্ণ হয়ে ওঠে।
ডিজিটাল স্বাক্ষরএকটি ডিজিটাল স্বাক্ষর হলো সেই ক্রিপ্টোগ্রাফিক ব্যবস্থা যা প্রমাণ করে কে একটি PDF স্বাক্ষর করেছে এবং তারপর থেকে কেউ এটি বদলায়নি। এটিই সেই কারিগরি ইঞ্জিন যার উপর সবচেয়ে শক্তিশালী ইলেকট্রনিক স্বাক্ষরগুলো নির্ভর করে, এবং এটি কলমের আঁচড়ের কোনো ছবি দিয়ে নয়, বরং পাবলিক-কী ক্রিপ্টোগ্রাফি দিয়ে গড়া।
ছবি
ভেক্টর গ্রাফিক্স একটি ছবিকে রঙিন বিন্দুর একটি স্থির গ্রিড হিসেবে নয়, বরং গণিত হিসেবে — বিন্দু, রেখা, বক্ররেখা ও ভরাট হিসেবে — বর্ণনা করে। একটি বৃত্ত একটি কেন্দ্র, একটি ব্যাসার্ধ ও একটি রঙ হিসেবে সংরক্ষিত হয়, ফলে কম্পিউটার যে আকারেই চাওয়া হোক সেই আকারে এটি নতুন করে আঁকে। এর পরিণতি ভেক্টর শিল্পের সংজ্ঞায়ক বৈশিষ্ট্য: এটি ধারালোভাব না হারিয়ে যেকোনো আকারে স্কেল করে।
র্যাস্টারএকটি র্যাস্টার ছবি হলো পিক্সেলের একটি আয়তাকার গ্রিড, যার প্রতিটি একটি রঙের মান ধরে রাখে — প্রতিটি ছবি ও স্ক্যানের পেছনের মডেল। একটি ভেক্টরের বিপরীতে একটি র্যাস্টারের একটি স্থির স্বকীয় রেজোলিউশন থাকে: এটি ঠিক এতগুলো বিন্দু আড়াআড়ি ও লম্বালম্বি সংরক্ষণ করে, এবং এর সব বিশদ সেই গ্রিডের মধ্যে গাঁথা।
JPGJPG (যা JPEG-ও লেখা হয়, এর সংজ্ঞাদাতা Joint Photographic Experts Group-এর নামানুসারে) হলো ছবির জন্য তৈরি ক্ষতিকারক র্যাস্টার ফরম্যাট। এটি ছবিটিকে ফ্রিকোয়েন্সি উপাদানে রূপান্তরিত করে এবং মানুষের চোখ যে সূক্ষ্ম বিশদ সবচেয়ে কম মিস করবে তা বাদ দিয়ে কাজ করে, এভাবেই এটি একটি পূর্ণ-রঙিন ছবিকে একটি ছোট ফাইলে গুঁজে দেয়।
PNGPNG (Portable Network Graphics) হলো ধারালো প্রান্ত ও সমতল রঙের গ্রাফিক্সের জন্য ক্ষতিহীন র্যাস্টার ফরম্যাট — স্ক্রিনশট, লোগো, আইকন, ডায়াগ্রাম ও টেক্সট-যুক্ত যেকোনো কিছু। ক্ষতিহীন মানে এটি ছবিটি হুবহু সংরক্ষণ করে: যতবার খুশি পুনরায় সংরক্ষণ করুন, একটি পিক্সেলও বদলায় না — JPEG-এর বংশানুক্রমিক ক্ষয়ের ঠিক বিপরীত।
WebPWebP হলো Google-এর একটি ছবি ফরম্যাট যা JPEG ও PNG দুটোকেই একটি কন্টেইনার দিয়ে প্রতিস্থাপন করার লক্ষ্য রাখে। এর কৌশল হলো দুটি মোড সমর্থন করা: ছবির জন্য ক্ষতিকারক সংকোচন, JPEG-এর মতো, এবং গ্রাফিক্সের জন্য ক্ষতিহীন সংকোচন, PNG-এর মতো — সাধারণত তুলনীয় মানে দুটোর যেকোনোটির চেয়ে ছোট ফাইল তৈরি করে।
TIFFTIFF (Tagged Image File Format) হলো সংরক্ষণ, স্ক্যানিং ও পেশাদার ইমেজিংয়ে ব্যবহৃত ভারী র্যাস্টার ফরম্যাট। এর নামটি এসেছে এর কাঠামো থেকে: ছবিটি বর্ণনাকারী ট্যাগের একটি নমনীয় সেট, যা একটি একক TIFF-কে অসংকুচিত বা ক্ষতিহীনভাবে সংকুচিত ডেটা, উচ্চ বিট-গভীরতা, এমবেড করা রঙের প্রোফাইল ও প্রচুর কারিগরি মেটাডেটা ধরে রাখতে দেয়।
SVGSVG (Scalable Vector Graphics) হলো একটি উন্মুক্ত, XML-ভিত্তিক ভেক্টর ফরম্যাট — আকৃতি, পাথ, রঙ ও টেক্সট বর্ণনাকারী পাঠযোগ্য টেক্সট হিসেবে লেখা একটি ছবি। যেহেতু এটি ভেক্টর, এটি একদম ধারালো প্রান্ত নিয়ে যেকোনো আকারে স্কেল করে, আর যেহেতু এটি XML, এটিকে CSS দিয়ে স্টাইল, অ্যানিমেট, এমনকি একটি সাধারণ টেক্সট এডিটরে অনুসন্ধান বা সম্পাদনাও করা যায়।
DPIDPI (dots per inch) রেজোলিউশন মাপে — একটি ছবি বা প্রিন্টের প্রতি ইঞ্চিতে কতগুলো বিশদের বিন্দু গাদা করা হয়েছে। সংখ্যাটি যত বেশি, বিশদ তত সূক্ষ্ম ও ফাইল তত বড়। এটিই সেই একটিমাত্র সেটিং যা প্রায়ই ঠিক করে দেয় একটি স্ক্যান বা একটি রপ্তানি ধারালো না হতাশাজনক দেখাবে।