لایهٔ متن
لایهٔ متن همان بخشی از یک PDF است که کاراکترهای واقعی و ماشینخوان را نگه میدارد، محتوایی که میتوانید با مکاننما انتخابش کنید، کپی کنید، جستوجو کنید و با صدای بلند خوانده شود. یک PDFی که از یک واژهپرداز یا اپ صفحهآرایی ساخته شده این لایه را بهصورت بومی دارد، که در آن هر کاراکتر به یک موقعیت و یک فونت نگاشته شده.
نقطهٔ مقابلش PDFِ اسکنشده است، که اغلب فقط تصویرِ یک صفحه است پیچیدهشده در بستهبندی PDF. شبیه یک سند به نظر میرسد، اما هیچ متنی زیرش نیست، پس یک جستوجو هیچچیز پیدا نمیکند و انتخاب هیچچیز نمیگیرد. OCR همان چیزی است که لایهٔ گمشده را اضافه میکند: کاراکترهای داخل تصویر را بازمیشناسد و آنها را بهصورت یک لایهٔ متنِ نامرئی، همتراز با پیکسلهای دیدنی، بازمینویسد، طوری که صفحه همانطور بماند و در عین حال کاملاً قابل جستوجو شود.
دانستن اینکه فایلی لایهٔ متنِ واقعی دارد یا نه، بسیاری از سرخوردگیهای روزمره را توضیح میدهد، اینکه چرا یک PDF قابل جستوجوست و دیگری نیست. وقتی به آن لایه نیاز دارید، تولیدش بهصورت محلی یعنی کلمات سند روی دستگاه خودتان استخراج میشوند، نه اینکه به یک سرویس از راه دور سپرده شوند که بتواند آنها را نگه دارد.
ابزارهای مرتبط