لایهٔ متن

لایهٔ متن همان بخشی از یک PDF است که کاراکترهای واقعی و ماشین‌خوان را نگه می‌دارد، محتوایی که می‌توانید با مکان‌نما انتخابش کنید، کپی کنید، جست‌وجو کنید و با صدای بلند خوانده شود. یک PDFی که از یک واژه‌پرداز یا اپ صفحه‌آرایی ساخته شده این لایه را به‌صورت بومی دارد، که در آن هر کاراکتر به یک موقعیت و یک فونت نگاشته شده.

نقطهٔ مقابلش PDFِ اسکن‌شده است، که اغلب فقط تصویرِ یک صفحه است پیچیده‌شده در بسته‌بندی PDF. شبیه یک سند به نظر می‌رسد، اما هیچ متنی زیرش نیست، پس یک جست‌وجو هیچ‌چیز پیدا نمی‌کند و انتخاب هیچ‌چیز نمی‌گیرد. OCR همان چیزی است که لایهٔ گم‌شده را اضافه می‌کند: کاراکترهای داخل تصویر را بازمی‌شناسد و آنها را به‌صورت یک لایهٔ متنِ نامرئی، هم‌تراز با پیکسل‌های دیدنی، بازمی‌نویسد، طوری که صفحه همان‌طور بماند و در عین حال کاملاً قابل جست‌وجو شود.

دانستن اینکه فایلی لایهٔ متنِ واقعی دارد یا نه، بسیاری از سرخوردگی‌های روزمره را توضیح می‌دهد، اینکه چرا یک PDF قابل جست‌وجوست و دیگری نیست. وقتی به آن لایه نیاز دارید، تولیدش به‌صورت محلی یعنی کلمات سند روی دستگاه خودتان استخراج می‌شوند، نه اینکه به یک سرویس از راه دور سپرده شوند که بتواند آنها را نگه دارد.

ابزارهای مرتبط

اصطلاح‌های بیشتر

OCR AcroForm XFA Metadata Compression Embedded fonts

← بازگشت به واژه‌نامه