OCR

O OCR (Optical Character Recognition) transforma a imagem do texto em carateres reais e selecionáveis. Uma página digitalizada ou a fotografia de um documento são, para um computador, apenas uma grelha de píxeis: não há texto nelas, só uma imagem que por acaso se parece com palavras. O OCR analisa as formas das letras e reconstrói a cadeia de carateres subjacente.

O resultado costuma ser escrito de volta como uma camada de texto invisível, colocada exatamente por cima da imagem original, para que a página continue a parecer a digitalização mas passe a ser pesquisável, copiável e indexável. Os motores modernos lidam com vários idiomas, colunas e tabelas, e a precisão depende muito da resolução de origem: uma digitalização limpa a 300 DPI reconhece-se muito melhor do que uma fotografia tremida de telemóvel. O Tesseract, o motor de código aberto, é aquele em que a maioria das ferramentas de navegador se baseia.

Como o OCR corre muitas vezes sobre papelada sensível — faturas, contratos, documentos de identificação —, o sítio onde acontece é uma verdadeira questão de privacidade. O reader.me faz o reconhecimento com WebAssembly dentro do teu navegador, por isso a imagem da página e o texto que produz ficam no teu dispositivo e nunca são enviados a lado nenhum para serem lidos por um servidor.

Ferramentas relacionadas

Mais termos

AcroForm XFA Metadata Compression Embedded fonts Text layer

← Voltar ao glossário