OCR

OCR (Optical Character Recognition) টেক্সটের ছবিকে প্রকৃত, নির্বাচনযোগ্য অক্ষরে রূপান্তরিত করে। একটি স্ক্যান করা পৃষ্ঠা বা কোনো নথির ছবি কম্পিউটারের কাছে নিছক পিক্সেলের একটি গ্রিড: এতে কোনো টেক্সট নেই, কেবল একটি ছবি যা দেখতে শব্দের মতো লাগে। OCR অক্ষরের আকৃতি বিশ্লেষণ করে নিচের অক্ষরগুলোর স্ট্রিং পুনর্গঠন করে।

ফলাফলটি সাধারণত মূল ছবির ঠিক উপরে বসা একটি অদৃশ্য টেক্সট স্তর হিসেবে লেখা হয়, ফলে পৃষ্ঠাটি দেখতে স্ক্যানের মতোই থাকে কিন্তু এখন তা অনুসন্ধানযোগ্য, কপিযোগ্য ও ইনডেক্সযোগ্য। আধুনিক ইঞ্জিনগুলো একাধিক ভাষা, কলাম ও সারণি সামলায়, আর নির্ভুলতা অনেকটাই উৎসের রেজোলিউশনের উপর নির্ভর করে: একটি পরিষ্কার ৩০০ DPI স্ক্যান ঝাপসা ফোনের ছবির চেয়ে অনেক ভালোভাবে শনাক্ত হয়। ওপেন-সোর্স ইঞ্জিন Tesseract-এর উপরই বেশিরভাগ ব্রাউজার-ভিত্তিক টুল গড়ে ওঠে।

যেহেতু OCR প্রায়ই সংবেদনশীল কাগজপত্রের — চালান, চুক্তি, পরিচয়পত্রের — উপর চলে, এটি কোথায় ঘটছে তা একটি বাস্তব গোপনীয়তার প্রশ্ন। reader.me স্বীকৃতি প্রক্রিয়াটি আপনার ব্রাউজারের ভেতরে WebAssembly দিয়ে চালায়, ফলে পৃষ্ঠার ছবি ও তা থেকে তৈরি টেক্সট আপনার ডিভাইসেই থাকে এবং সার্ভারে পড়ার জন্য কোথাও পাঠানো হয় না।

সম্পর্কিত টুল

আরও পরিভাষা

AcroForm XFA Metadata Compression Embedded fonts Text layer

← শব্দকোষে ফিরে যান