টেক্সট স্তর
টেক্সট স্তর হলো একটি PDF-এর সেই অংশ যা প্রকৃত, মেশিন-পাঠযোগ্য অক্ষর ধরে রাখে — যে কনটেন্ট আপনি কার্সার দিয়ে নির্বাচন, কপি, অনুসন্ধান ও সশব্দে পড়াতে পারেন। একটি ওয়ার্ড প্রসেসর বা পেজ-লেআউট অ্যাপ থেকে তৈরি একটি PDF-এ এই স্তরটি স্বভাবতই থাকে, যেখানে প্রতিটি অক্ষর একটি অবস্থান ও একটি ফন্টে মানচিত্রিত।
এর বিপরীত হলো স্ক্যান করা PDF, যা প্রায়ই PDF মোড়কে জড়ানো একটি পৃষ্ঠার নিছক ছবি। এটি দেখতে নথির মতো, কিন্তু নিচে কোনো টেক্সট নেই, ফলে অনুসন্ধান কিছুই খুঁজে পায় না এবং নির্বাচন কিছুই ধরে না। OCR-ই অনুপস্থিত স্তরটি যোগ করে: এটি ছবির অক্ষরগুলো শনাক্ত করে এবং দৃশ্যমান পিক্সেলের সঙ্গে সারিবদ্ধ একটি অদৃশ্য টেক্সট স্তর হিসেবে সেগুলো লিখে দেয়, পৃষ্ঠাটিকে একই রকম রেখে কিন্তু সম্পূর্ণ অনুসন্ধানযোগ্য করে তোলে।
একটি ফাইলে সত্যিকারের টেক্সট স্তর আছে কিনা তা জানা দৈনন্দিন অনেক হতাশার ব্যাখ্যা দেয় — কেন একটি PDF অনুসন্ধানযোগ্য আর আরেকটি নয়। আপনার যখন সেই স্তর দরকার, তা লোকালি তৈরি করার অর্থ হলো নথির শব্দগুলো আপনার নিজের মেশিনেই বের করা হয়, এমন কোনো রিমোট সেবায় পাঠানো হয় না যা সেগুলো ধরে রাখতে পারত।