OCR – metoree

Qu’est-ce que l’OCR ?

L’OCR est l’abréviation de Optical Character Recognition / Reader, une technologie qui reconnaît les parties de caractères d’une image capturée par un appareil photo ou un scanner et les convertit en données textuelles pouvant être reconnues par un ordinateur.

Même le texte manuscrit est converti en données textuelles par l’OCR, de sorte qu’une fois qu’il a été capturé, le document souhaité peut être consulté immédiatement en effectuant une recherche ultérieure. Les produits disponibles comprennent des scanners OCR physiques et des services OCR basés sur le cloud pour les images préparées par l’utilisateur.

Utilisations de l’OCR

L’OCR est souvent utilisée pour numériser des documents, en particulier des documents manuscrits, dans le but de les dématérialiser et d’améliorer l’accessibilité aux documents. Bien que de nombreuses procédures soient désormais effectuées en ligne, certaines procédures sont encore dominées par des documents manuscrits.

C’est le cas, par exemple, des formulaires d’inscription dans les écoles et des enquêtes menées lors d’événements ou dans la rue. Les documents papier sont non seulement encombrants, mais il faut aussi beaucoup de temps pour trouver le document souhaité. Jusqu’à présent, le texte manuscrit devait être converti manuellement en données.

Cependant, grâce à l’introduction de l’OCR, les bordereaux et les reçus peuvent être convertis en données consultables et modifiables simplement en les scannant, contribuant ainsi de manière significative à l’efficacité opérationnelle en les numérisant.

Principe de l’OCR

Après avoir capturé une image, l’OCR effectue trois processus principaux pour la reconnaissance des caractères.

Afin d’extraire la partie textuelle de l’image, un processus appelé analyse de la mise en page est utilisé pour séparer grossièrement la partie textuelle de la partie non textuelle.
Les colonnes et les lignes sont déterminées à partir des morceaux de texte extraits par l’analyse de la mise en page.
La reconnaissance des caractères s’effectue en extrayant les caractères individuels des colonnes et des lignes.

Pour identifier les caractères ainsi extraits, trois processus supplémentaires sont mis en œuvre.

La normalisation de la taille des caractères est effectuée et les caractères sont traités comme des caractères de taille égale.
Les caractéristiques des caractères sont quantifiées en considérant un caractère comme un ensemble de segments de ligne et en décomposant chacun d’entre eux en composantes directionnelles.
Le caractère est identifié par comparaison avec un modèle préenregistré.

L’indicateur utilisé pour prendre une décision dans le processus 3 est calculé en calculant la distance euclidienne. La distance euclidienne est la distance entre deux points mesurée par une règle et obtenue par la formule de Pythagore (théorème des trois carrés).

Récemment, de nombreux efforts ont été déployés pour améliorer les taux d’alphabétisation en incorporant l’apprentissage automatique dans la dernière étape de la mise en correspondance.

Types de logiciels d’OCR

Ces dernières années, l’OCR a été proposée sous diverses formes autres que la forme traditionnelle. Par exemple, l’OCR fournie en tant que service en nuage ne nécessite pas l’installation d’un logiciel et les données textuelles peuvent être obtenues en envoyant des fichiers images au service en nuage.

De plus, la ROC fournie sous la forme d’une utilisation pour smartphone peut convertir en texte des images prises avec l’appareil photo d’un smartphone en temps réel. Dans de nombreux cas, l’OCR est également intégrée dans les logiciels de traduction et les logiciels de comptabilité domestique, et des services sont apparus qui peuvent lire des textes avec l’OCR et les traduire, ou lire des reçus et créer automatiquement un livre de comptes domestique.

Dans de nombreux cas, ces logiciels d’OCR sont disponibles gratuitement pour une utilisation inférieure à une certaine taille, ce qui permet d’introduire l’OCR à titre d’essai.

Autres informations sur l’OCR

OCR basée sur l’IA

L’OCR basée sur l’IA, également connue sous le nom d’AI-OCR, est devenue de plus en plus populaire ces dernières années et est introduite par les entreprises pour numériser une surabondance de documents.

Par rapport à l’OCR classique, l’AI-OCR se caractérise par sa capacité à reconnaître les caractères avec une plus grande précision en utilisant des méthodes d’apprentissage automatique. Si le texte est facile à lire, comme un texte imprimé, il peut être lu avec une précision proche de 100 %.

De plus, avec l’OCR classique, il est nécessaire de définir la position de lecture et l’élément avant de lire. Avec l’AI-OCR, en revanche, l’IA identifie automatiquement les positions de lecture et les éléments à lire, de sorte qu’aucun travail de conception préalable n’est nécessaire. Il est donc possible de lire facilement une grande variété de documents.

Récemment, les outils d’automatisation des tâches, connus sous le nom de RPA (Robotic Process Automation), ont gagné en popularité. Ils permettent d’automatiser des tâches simples.