カテゴリー
category_de

OCR

Was ist OCR?

OCR

OCR ist eine Abkürzung für optische Zeichenerkennung (Optical Character Recognition / Reader), eine Technologie, die die Zeichenteile eines mit einer Kamera oder einem Scanner aufgenommenen Bildes erkennt und in Textdaten umwandelt, die von einem Computer erkannt werden können.

Sogar handgeschriebener Text wird durch OCR in Textdaten umgewandelt, so dass nach der Erfassung durch eine spätere Suche sofort auf das gewünschte Dokument zugegriffen werden kann. Zu den verfügbaren Produkten gehören physische OCR-Scanner und Dienste, die OCR an vom Benutzer in der Cloud vorbereiteten Bildern durchführen.

Anwendungen von OCR

OCR wird häufig für die Digitalisierung von Dokumenten verwendet, insbesondere von handschriftlichen Dokumenten, mit dem Ziel, diese papierlos zu machen und die Zugänglichkeit zu Dokumenten zu verbessern. Obwohl viele Verfahren inzwischen online abgewickelt werden, gibt es immer noch Verfahren, die von handschriftlichen Dokumenten dominiert werden.

Beispiele hierfür sind Einschulungsformulare und Umfragen, die auf Veranstaltungen und auf der Straße durchgeführt werden. Papierdokumente sind nicht nur sperrig, sondern auch zeitaufwändig, um das gewünschte Dokument zu finden. Bisher musste handgeschriebener Text wieder von Hand in Daten umgewandelt werden.

Mit der Einführung von OCR können Belege und Quittungen jedoch durch einfaches Scannen in durchsuchbare und bearbeitbare Daten umgewandelt werden, was durch die Digitalisierung von Belegen und Quittungen einen wesentlichen Beitrag zur betrieblichen Effizienz leistet.

Funktionsweise der OCR

Nach dem Erfassen eines Bildes führt OCR drei Hauptprozesse zur Zeichenerkennung durch:

1. Um den textuellen Teil des Bildes zu extrahieren, wird ein Prozess namens Layout-Analyse verwendet, um den textuellen Teil grob vom nicht-textuellen Teil zu trennen.
2. Aus den durch die Layout-Analyse extrahierten Textabschnitten werden Spalten und Zeilen bestimmt.
3. Die Zeichenerkennung erfolgt durch Extraktion einzelner Zeichen aus den Spalten und Zeilen.

Um die so extrahierten Zeichen zu identifizieren, werden drei weitere Prozesse durchgeführt:

1. Es wird eine Normalisierung der Zeichengröße vorgenommen und die Zeichen werden als gleich große Zeichen behandelt.
2. Die Zeichenmerkmale werden quantifiziert, indem ein Zeichen als eine Menge von Liniensegmenten betrachtet und jedes von ihnen in Richtungskomponenten zerlegt wird.
3. Das Zeichen wird durch Mustervergleich mit einer zuvor registrierten Vorlage identifiziert.

Der Indikator, der zur Entscheidungsfindung in Prozess 3 verwendet wird, wird durch Berechnung des euklidischen Abstands ermittelt. Der euklidische Abstand ist der mit einem Lineal gemessene Abstand zwischen zwei Punkten, der durch die Pythagoras-Formel (Satz von den drei Quadraten) ermittelt wird.

In letzter Zeit gab es viele Bemühungen, die Lese- und Schreibfähigkeit zu verbessern, indem maschinelles Lernen in den letzten Abgleichschritt integriert wurde.

Arten von OCR-Software

In den letzten Jahren wurde OCR in verschiedenen Formen angeboten, die über die traditionelle OCR hinausgehen. Bei OCR, die als Cloud-Service angeboten wird, muss beispielsweise keine Software installiert werden, und die Textdaten können durch Senden von Bilddateien an den Cloud-Service abgerufen werden.

Darüber hinaus kann OCR als Smartphone-Anwendung Bilder, die mit einer Smartphone-Kamera aufgenommen wurden, in Echtzeit in Text umwandeln. In vielen Fällen ist OCR auch in Übersetzungssoftware und Haushaltsbuchführungssoftware integriert, und es sind Dienste entstanden, die Text mit OCR lesen und dann übersetzen oder Quittungen lesen und automatisch ein Haushaltsbuch erstellen können.

In vielen Fällen ist diese OCR-Software ab einem bestimmten Umfang kostenlos erhältlich, so dass OCR probeweise eingeführt werden kann.

Weitere Informationen zu OCRs

KI-basierte OCR

Die KI-basierte OCR, auch AI-OCR genannt, hat in den letzten Jahren zunehmend an Popularität gewonnen und wird von immer mehr Unternehmen eingeführt, um eine große Anzahl von Dokumenten zu digitalisieren.

Im Vergleich zu herkömmlicher OCR zeichnet sich AI-OCR dadurch aus, dass sie durch den Einsatz von maschinellen Lernverfahren Zeichen mit höherer Genauigkeit erkennen kann. Wenn der Text leicht zu lesen ist, wie z. B. gedruckter Text, kann er mit nahezu 100 %iger Genauigkeit gelesen werden.

Außerdem müssen bei der herkömmlichen OCR die Leseposition und das Element vor dem Lesen festgelegt werden. Bei OCR hingegen identifiziert die KI automatisch die Lesepositionen und die zu lesenden Elemente, so dass keine Vorarbeiten erforderlich sind. Dies ermöglicht es, eine Vielzahl von Dokumenten problemlos zu lesen.

In jüngster Zeit gewinnt der Einsatz von RPA, einer Abkürzung für Robotic Process Automation, an Popularität. Dabei werden Dokumente automatisch von KI-OCR gelesen und anschließend automatisch mit RPA verarbeitet. Dies ermöglicht die Automatisierung von einfachen Aufgaben. 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です