টেক্সট স্তর

টেক্সট স্তর হলো একটি PDF-এর সেই অংশ যা প্রকৃত, মেশিন-পাঠযোগ্য অক্ষর ধরে রাখে — যে কনটেন্ট আপনি কার্সার দিয়ে নির্বাচন, কপি, অনুসন্ধান ও সশব্দে পড়াতে পারেন। একটি ওয়ার্ড প্রসেসর বা পেজ-লেআউট অ্যাপ থেকে তৈরি একটি PDF-এ এই স্তরটি স্বভাবতই থাকে, যেখানে প্রতিটি অক্ষর একটি অবস্থান ও একটি ফন্টে মানচিত্রিত।

এর বিপরীত হলো স্ক্যান করা PDF, যা প্রায়ই PDF মোড়কে জড়ানো একটি পৃষ্ঠার নিছক ছবি। এটি দেখতে নথির মতো, কিন্তু নিচে কোনো টেক্সট নেই, ফলে অনুসন্ধান কিছুই খুঁজে পায় না এবং নির্বাচন কিছুই ধরে না। OCR-ই অনুপস্থিত স্তরটি যোগ করে: এটি ছবির অক্ষরগুলো শনাক্ত করে এবং দৃশ্যমান পিক্সেলের সঙ্গে সারিবদ্ধ একটি অদৃশ্য টেক্সট স্তর হিসেবে সেগুলো লিখে দেয়, পৃষ্ঠাটিকে একই রকম রেখে কিন্তু সম্পূর্ণ অনুসন্ধানযোগ্য করে তোলে।

একটি ফাইলে সত্যিকারের টেক্সট স্তর আছে কিনা তা জানা দৈনন্দিন অনেক হতাশার ব্যাখ্যা দেয় — কেন একটি PDF অনুসন্ধানযোগ্য আর আরেকটি নয়। আপনার যখন সেই স্তর দরকার, তা লোকালি তৈরি করার অর্থ হলো নথির শব্দগুলো আপনার নিজের মেশিনেই বের করা হয়, এমন কোনো রিমোট সেবায় পাঠানো হয় না যা সেগুলো ধরে রাখতে পারত।

সম্পর্কিত টুল

আরও পরিভাষা

OCR AcroForm XFA Metadata Compression Embedded fonts

← শব্দকোষে ফিরে যান