كيف يقرأ الذكاء الاصطناعي ملفات PDF الخاصة بك (ولماذا يهمّ النص القابل للاستخراج)
يحتاج AI ومحركات البحث إلى نص حقيقي في ملف PDF، لا إلى صورة له. إليك الفرق، وكيف تجهّز ملفاتك لتُقرأ بشكل صحيح.
تلصق ملف PDF في أداة ذكاء اصطناعي وتطلب منها تلخيصه. أحيانًا تحصل على إجابة دقيقة. وأحيانًا تحصل على كلام فارغ، أو على جواب جافّ “لا أستطيع قراءة هذا الملف”. الأداة نفسها، والطلب نفسه. الفرق لا يكاد يكون أبدًا في الذكاء الاصطناعي. إنه في ملف PDF.
ملف PDF ليس دائمًا ما يبدو عليه
افتح ملفي PDF جنبًا إلى جنب، وقد يبدوان متطابقين على الشاشة. لكن تحت السطح قد يكونان مبنيين بطريقتين مختلفتين تمامًا.
أحدهما يحتوي على طبقة نصية. لقد صُدّر من محرّر مستندات، أو متصفح، أو تطبيق فوترة، أو أي شيء رقمي. الحروف مخزّنة كأحرف. الملف يعرف أن كلمة “الإجمالي” تقع في أسفل اليمين. يمكنك تحديدها ونسخها والبحث عنها.
والآخر هو صورة لصفحة. مسح شخصٌ ورقة ضوئيًا أو التقط صورة بهاتفه وحفظ تلك الصورة داخل ملف PDF. عيناك تقرآنها بلا مشكلة. أما بالنسبة للبرمجيات فهي شبكة من البكسلات على هيئة حروف، بلا أي حروف فيها. لا شيء لتحديده. لا شيء للبحث فيه.
اختبار سريع: اسحب المؤشر عبر كلمة. إذا تظلّلت، فالنص حقيقي. وإذا حصلت على مربّع يغطي الصفحة كلها كأنك أمسكت صورة، فلديك مستند ممسوح ضوئيًا.
ما الذي يراه الذكاء الاصطناعي فعلًا
هنا الجزء الذي يفوت الناس. معظم نماذج اللغة تقرأ ملف PDF بسحب طبقته النصية منه. هذا هو المسار الرخيص والسريع والدقيق، وهو المسار الذي يعمل افتراضيًا في كثير من الأدوات. إذا كانت الطبقة النصية موجودة، حصل النموذج على كلمات نظيفة وأعطاك إجابة جيدة.
وإذا لم تكن هناك طبقة نصية، فلن يحصل النموذج على شيء من ذلك المسار. صورة عقدٍ تسلّمه صفر أحرف. عندها تلجأ بعض الأدوات إلى تمرير الصورة عبر الرؤية، وهو ما قد ينجح، لكنه أبطأ، وأكثر كلفة، ويخمّن عند المستندات الممسوحة الفوضوية. وكثير من الأدوات تتخطى البديل وتخبرك ببساطة أن الملف فارغ.
لذا فإن جودة إجابة الذكاء الاصطناعي عن ملف PDF الخاص بك كثيرًا ما تتلخّص في أمر واحد: هل كان هناك نص حقيقي لقراءته، أم اضطر النموذج إلى التحديق في صورة.
محركات البحث تفعل الشيء نفسه
هذه ليست مشكلة AI فحسب. عندما يفهرس محرّك بحث ملف PDF على موقعك، فإنه يقرأ الطبقة النصية. كتيّب ممسوح ضوئيًا بلا طبقة نصية يكاد يكون غير مرئي له. قد لا تتصدّر الصفحة لأي شيء لأنه لا يوجد ما يُفهرس. أما ملف PDF بنصّ قابل للتحديد وعناوين وترتيب قراءة منطقي فيُفهرَس بشكل صحيح، ويمكن أن يظهر فعلًا عندما يبحث أحدهم عمّا بداخله.
قارئات الشاشة تعمل من الطبقة نفسها. مستخدم كفيف يشغّل برمجية مساعدة يسمع النص الذي يكشفه ملف PDF. الصورة الخالصة لا تكشف شيئًا، فيقرأ صمتًا. النص الحقيقي، ببنيته، هو ما يجعل المستند يعمل لشخص يستخدم قارئ شاشة ولآلة تقرأه على نطاق واسع. الحل نفسه، وجمهوران.
ماذا يعني “جيّد الصنع”
ملف PDF الذي يُقرأ جيدًا من قِبل AI ومحركات البحث وقارئات الشاشة يميل إلى امتلاك ثلاثة أمور.
نص حقيقي قابل للتحديد. الملفات الرقمية المنشأ تملك هذا أصلًا. أما المستندات الممسوحة فلا، حتى تصلحها.
بنية. عناوين موسومة كعناوين، وترتيب قراءة منطقي، وجداول هي فعلًا جداول. هذا ما يتيح للنموذج ولقارئ الشاشة أن يتبعا المستند بدلًا من الحصول على جدار من الكلمات المتناثرة.
الاستقرار عبر الزمن. ملف PDF/A يضمّن خطوطه ويتخلّى عن التبعيات الخارجية، بحيث يبقى النص قابلًا للاستخراج بعد سنوات من الآن، في برمجيات لم توجد بعد. جيّد للأرشيف، جيّد لأي شيء تريد أن تظل آلة قادرة على قراءته لاحقًا.
كيف تُصلح ملف PDF ليقرأه الذكاء الاصطناعي
إذا كان ملفك رقمي المنشأ وتستطيع بالفعل تحديد النص، فقد انتهيت. سيُقرأ جيدًا. العمل لا يبدأ إلا حين يكون النص محبوسًا في صورة.
بالنسبة لمستند ممسوح ضوئيًا، شغّل OCR. التعرّف الضوئي على الحروف ينظر إلى الصورة، ويجد أشكال الحروف، ويكتب النص الحقيقي مجددًا داخل ملف PDF، مدسوسًا خلف الصورة حيث لا تراه. تبدو الصفحة كما هي. تبقى الزاوية المائلة وبقعة القهوة. لكن الآن توجد طبقة نصية تحتها، فيستطيع AI قراءتها، ويستطيع البحث فهرستها، ويستطيع قارئ الشاشة نطقها. يمكنك القيام بذلك باستخدام أداة التعرّف الضوئي على الحروف OCR.
وإذا كنت تحتاج فقط إلى إخراج الكلمات من ملف PDF لِلصقها في نموذج أو بريد إلكتروني أو تطبيق ملاحظات، فاسحب النص مباشرة باستخدام أداة استخراج النص من PDF. تحصل على المحتوى كنصّ عادي، جاهزًا لتسليمه إلى أي شيء يحتاجه.
كلاهما يعمل داخل متصفحك على reader.me. لا يُرفع ملف PDF أبدًا. هذا يهمّ هنا أكثر من المعتاد، لأن المستندات التي يرغب الناس في أن يقرأها AI أكثر من غيرها هي المستندات الخاصة. العقود، والخطابات الطبية، وكشوف الحسابات، وأي شيء يحمل اسمًا ورقمًا. إرسال تلك إلى خادم شخص آخر لجعلها قابلة للقراءة الآلية مقايضة غريبة. على reader.me تتجاوزها. الصفحة تنجز العمل، ويبقى الملف على جهازك.
النسخة المختصرة
AI والبحث لا يريان ملف PDF الخاص بك كما تراه أنت. إنهما يقرآن طبقته النصية. إذا كانت تلك الطبقة موجودة، حصلت على إجابات جيدة وفهرسة سليمة. وإذا لم تكن موجودة، حصلت على تخمينات أو صمت. الملفات الرقمية المنشأ تملكها أصلًا. والمستندات الممسوحة تحتاج إلى OCR. وفي كلتا الحالتين، يستغرق الحل دقيقة، وعلى reader.me يحدث دون أن يغادر ملفك يديك أبدًا.