AI কীভাবে আপনার PDF পড়ে (এবং কেন উত্তোলনযোগ্য টেক্সট গুরুত্বপূর্ণ)
AI ও সার্চ ইঞ্জিনের একটি PDF-এ আসল টেক্সট দরকার, তার ছবি নয়। এই পার্থক্যটি, এবং কীভাবে আপনার ফাইল প্রস্তুত করবেন যাতে সেগুলো সঠিকভাবে পঠিত হয়।
আপনি একটি PDF একটি AI টুলে পেস্ট করে এটিকে সারসংক্ষেপ করতে বলেন। কখনো আপনি একটি ধারালো উত্তর পান। কখনো আপনি অর্থহীন কিছু পান, কিংবা সরাসরি “আমি এই ফাইল পড়তে পারছি না।” একই টুল, একই প্রম্পট। পার্থক্যটা প্রায় কখনোই AI নয়। এটি PDF।
একটি PDF সবসময় যা দেখায় তা নয়
দুটি PDF পাশাপাশি খুলুন এবং সেগুলো স্ক্রিনে একরকম দেখাতে পারে। নিচে সেগুলো সম্পূর্ণ ভিন্ন দুই উপায়ে তৈরি হতে পারে।
একটিতে একটি টেক্সট স্তর (text layer) আছে। এটি একটি ডকুমেন্ট এডিটর, একটি ব্রাউজার, একটি ইনভয়েসিং অ্যাপ, যেকোনো ডিজিটাল কিছু থেকে রপ্তানি হয়েছে। অক্ষরগুলো ক্যারেক্টার হিসেবে সংরক্ষিত। ফাইলটি জানে “total” শব্দটি নিচের ডানদিকে বসে আছে। আপনি এটি নির্বাচন করতে, কপি করতে, সার্চ করতে পারেন।
অন্যটি একটি পৃষ্ঠার ছবি। কেউ একটি কাগজ স্ক্যান করেছে বা একটি ফোনে ছবি তুলেছে এবং সেই ছবিটি একটি PDF-এর ভেতরে সংরক্ষণ করেছে। আপনার চোখ এটি ঠিকঠাক পড়ে। সফটওয়্যারের কাছে এটি অক্ষরের আকারে সাজানো পিক্সেলের একটি গ্রিড, যাতে কোনো অক্ষর নেই। নির্বাচন করার কিছু নেই। সার্চ করার কিছু নেই।
দ্রুত পরীক্ষা: একটি শব্দের ওপর দিয়ে আপনার কার্সার টেনে নিন। যদি এটি হাইলাইট হয়, টেক্সটটি আসল। যদি আপনি পুরো পৃষ্ঠার ওপর একটি বাক্স পান যেন একটি ছবি ধরে ফেলেছেন, তাহলে আপনার কাছে একটি স্ক্যান আছে।
AI আসলে কী দেখে
এখানে সেই অংশ যা মানুষ মিস করে। বেশিরভাগ ল্যাঙ্গুয়েজ মডেল একটি PDF পড়ে তার টেক্সট স্তর টেনে বের করে। এটাই সস্তা, দ্রুত, নির্ভুল পথ, আর এটাই অনেক টুলে ডিফল্ট হিসেবে চলে। যদি টেক্সট স্তর থাকে, মডেলটি পরিষ্কার শব্দ পায় এবং আপনাকে একটি ভালো উত্তর দেয়।
যদি কোনো টেক্সট স্তর না থাকে, মডেলটি সেই পথ থেকে কিছুই পায় না। একটি চুক্তির ছবি এটিকে শূন্য ক্যারেক্টার তুলে দেয়। কিছু টুল তখন ছবিটিকে ভিশনের মধ্য দিয়ে চালানোর দিকে ফিরে যায়, যা কাজ করতে পারে, কিন্তু এটি ধীর, খরচ বেশি, এবং এলোমেলো স্ক্যান নিয়ে আন্দাজ করে। অনেক টুল এই ফলব্যাক এড়িয়ে যায় এবং কেবল আপনাকে বলে ফাইলটি খালি।
তাই আপনার PDF নিয়ে একটি AI উত্তরের মান প্রায়ই একটি বিষয়ের ওপর নেমে আসে: পড়ার মতো আসল টেক্সট ছিল কি, নাকি মডেলকে একটি ছবির দিকে কুঁচকে তাকাতে হয়েছিল।
সার্চ ইঞ্জিন একই কাজ করে
এটা শুধু একটি AI সমস্যা নয়। যখন একটি সার্চ ইঞ্জিন আপনার সাইটের একটি PDF ইনডেক্স করে, এটি টেক্সট স্তর পড়ে। কোনো টেক্সট স্তর ছাড়া একটি স্ক্যান করা ব্রোশিওর এর কাছে প্রায় অদৃশ্য। পৃষ্ঠাটি কোনো কিছুর জন্যই র্যাঙ্ক না করতে পারে কারণ ইনডেক্স করার মতো কিছু নেই। নির্বাচনযোগ্য টেক্সট, শিরোনাম এবং একটি যুক্তিসঙ্গত পঠন ক্রমসহ একটি PDF সঠিকভাবে ইনডেক্স হয় এবং সত্যিই দেখা দিতে পারে যখন কেউ এর ভেতরে যা আছে তা সার্চ করে।
স্ক্রিন রিডারও একই স্তরে কাজ করে। সহায়ক সফটওয়্যার চালানো একজন অন্ধ ব্যবহারকারী PDF যে টেক্সট উন্মুক্ত করে তা শোনে। একটি বিশুদ্ধ ছবি কিছুই উন্মুক্ত করে না, তাই এটি নীরবতা পড়ে। গঠনসহ আসল টেক্সটই একটি নথিকে একজন স্ক্রিন রিডার ব্যবহারকারী মানুষের জন্য এবং বড় পরিসরে এটি পড়া একটি মেশিনের জন্য কার্যকর করে। একই সমাধান, দুই শ্রোতা।
“ভালোভাবে বানানো” মানে কী
যে PDF AI দ্বারা, সার্চ দ্বারা এবং স্ক্রিন রিডার দ্বারা ভালোভাবে পঠিত হয় তাতে সাধারণত তিনটি জিনিস থাকে।
আসল, নির্বাচনযোগ্য টেক্সট। বর্ন-ডিজিটাল ফাইলে এটি আগে থেকেই আছে। স্ক্যানে নেই, যতক্ষণ না আপনি ঠিক করেন।
গঠন। শিরোনামগুলো শিরোনাম হিসেবে চিহ্নিত, একটি যৌক্তিক পঠন ক্রম, টেবিল যা সত্যিকারের টেবিল। এটাই একটি মডেল ও একটি স্ক্রিন রিডারকে নথি অনুসরণ করতে দেয়, এলোমেলো শব্দের একটি দেয়াল পাওয়ার বদলে।
সময়ের সঙ্গে স্থিতিশীলতা। একটি PDF/A ফাইল তার ফন্ট এম্বেড করে এবং বাহ্যিক নির্ভরতা বাদ দেয়, তাই টেক্সটটি বছর পরেও উত্তোলনযোগ্য থাকে, এমন সফটওয়্যারে যা এখনো অস্তিত্বেই নেই। সংরক্ষণাগারের জন্য ভালো, এমন যেকোনো কিছুর জন্য ভালো যা আপনি একটি মেশিনকে পরেও পড়াতে চান।
একটি PDF কীভাবে ঠিক করবেন যাতে AI এটি পড়ে
আপনার ফাইল যদি বর্ন-ডিজিটাল হয় এবং আপনি আগে থেকেই টেক্সট নির্বাচন করতে পারেন, আপনার কাজ শেষ। এটি ঠিকঠাক পঠিত হবে। কাজটি কেবল তখনই শুরু হয় যখন টেক্সট একটি ছবির মধ্যে আটকে থাকে।
একটি স্ক্যান করা নথির জন্য, OCR চালান। Optical Character Recognition ছবিটি দেখে, অক্ষরের আকার খুঁজে বের করে, এবং আসল টেক্সট PDF-এর মধ্যে আবার লিখে দেয়, ছবির পেছনে গুঁজে রাখে যেখানে আপনি তা দেখতে পান না। পৃষ্ঠাটি একই দেখায়। বাঁকা কোণ ও কফির দাগ থেকে যায়। কিন্তু এখন নিচে একটি টেক্সট স্তর আছে, তাই AI এটি পড়তে পারে, সার্চ এটি ইনডেক্স করতে পারে, একটি স্ক্রিন রিডার এটি বলতে পারে। আপনি সেটা করতে পারেন PDF OCR টুল দিয়ে।
আপনার যদি শুধু একটি PDF থেকে শব্দগুলো বের করে একটি মডেল, একটি ইমেল বা একটি নোট অ্যাপে পেস্ট করার দরকার হয়, সরাসরি টেক্সট টেনে নিন PDF থেকে টেক্সট বের করার টুল দিয়ে। আপনি বিষয়বস্তু সাধারণ টেক্সট হিসেবে পান, যা দরকার তার হাতে তুলে দেওয়ার জন্য প্রস্তুত।
দুটোই reader.me-তে আপনার ব্রাউজারের ভেতরে চলে। PDF কখনো আপলোড হয় না। এটা এখানে স্বাভাবিকের চেয়ে বেশি গুরুত্বপূর্ণ, কারণ যে নথিগুলো মানুষ সবচেয়ে বেশি একটি AI-কে পড়াতে চায় সেগুলো হলো ব্যক্তিগত নথি। চুক্তি, চিকিৎসা চিঠি, বিবৃতি, যেকোনো কিছু যাতে একটি নাম ও একটি নম্বর আছে। সেগুলোকে মেশিন-পঠনযোগ্য করতে অন্য কারো সার্ভারে পাঠানো একটি অদ্ভুত বিনিময়। reader.me-তে আপনি এটি এড়িয়ে যান। পৃষ্ঠাটি কাজটি করে এবং ফাইলটি আপনার মেশিনেই থাকে।
সংক্ষিপ্ত সংস্করণ
AI ও সার্চ আপনার PDF আপনার মতো করে দেখে না। তারা এর টেক্সট স্তর পড়ে। যদি সেই স্তরটি থাকে, আপনি ভালো উত্তর ও সঠিক ইনডেক্সিং পান। যদি না থাকে, আপনি আন্দাজ বা নীরবতা পান। বর্ন-ডিজিটাল ফাইলে এটি আগে থেকেই আছে। স্ক্যানে OCR দরকার। যেভাবেই হোক সমাধানটি এক মিনিট নেয়, আর reader.me-তে এটি আপনার ফাইল কখনো আপনার হাত ছেড়ে না গিয়েই ঘটে।