OCR

L'OCR (Optical Character Recognition, reconnaissance optique de caractères) transforme l'image d'un texte en véritables caractères sélectionnables. Une page scannée ou la photo d'un document n'est, pour un ordinateur, qu'une grille de pixels : il n'y a pas de texte dedans, seulement une image qui ressemble à des mots. L'OCR analyse la forme des lettres et reconstruit la chaîne de caractères sous-jacente.

Le résultat est généralement réécrit sous forme de couche de texte invisible, placée exactement par-dessus l'image d'origine : la page ressemble toujours au scan, mais elle est désormais consultable, copiable et indexable. Les moteurs modernes gèrent plusieurs langues, les colonnes et les tableaux, et la précision dépend beaucoup de la résolution source : un scan net à 300 DPI se reconnaît bien mieux qu'un cliché flou pris au téléphone. Tesseract, le moteur open source, est celui sur lequel s'appuient la plupart des outils dans le navigateur.

Comme l'OCR s'exécute souvent sur des documents sensibles — factures, contrats, pièces d'identité —, l'endroit où il a lieu est une vraie question de confidentialité. reader.me effectue la reconnaissance avec WebAssembly à l'intérieur de votre navigateur : l'image de la page et le texte qu'elle produit restent sur votre appareil et ne sont jamais envoyés ailleurs pour être lus par un serveur.

Outils associés

Plus de termes

AcroForm XFA Metadata Compression Embedded fonts Text layer

← Retour au glossaire