طبقة النص
طبقة النص هي الجزء من ملف PDF الذي يحمل حروفًا حقيقية قابلة للقراءة آليًا، أي المحتوى الذي تستطيع تحديده بالمؤشر ونسخه والبحث فيه وقراءته بصوت عالٍ. ملف PDF المبني من معالج نصوص أو تطبيق تنسيق صفحات يملك هذه الطبقة أصلًا، إذ يُربط كل حرف بموضع وخط.
والنقيض هو ملف PDF الممسوح ضوئيًا، الذي كثيرًا ما يكون مجرد صورة لصفحة ملفوفة في تغليف PDF. يبدو كمستند، لكن لا نص تحته، فلا يجد البحث شيئًا ولا يلتقط التحديد شيئًا. وOCR هو ما يضيف الطبقة المفقودة: يتعرّف على الحروف في الصورة ويعيد كتابتها كطبقة نص غير مرئية محاذية للبكسلات المرئية، فتبقى الصفحة بالمظهر نفسه بينما تصير قابلة للبحث بالكامل.
معرفة ما إذا كان للملف طبقة نص حقيقية تفسّر الكثير من الإحباط اليومي، لماذا يكون ملف PDF قابلًا للبحث وآخر ليس كذلك. وحين تحتاج تلك الطبقة، فإن توليدها محليًا يعني أن كلمات المستند تُستخرج على جهازك أنت بدلًا من تمريرها إلى خدمة بعيدة قد تحتفظ بها.
أدوات ذات صلة