✅ OCR: Basis der Lösungen zur Dokumenterkennung

Das Bild riesiger Aktenschränke und hoher Berge an Papierpost gehört für viele längst der Vergangenheit an. Dies zumindest suggerieren die Entwicklungen fortschreitender Digitalisierung in Unternehmen und öffentlicher Verwaltung sowie die Einführung elektronischer Formate für Rechnungen oder Bestellungen. Erfahren Sie, welche Rolle unstrukturierte, semi-strukturierte und strukturierte Daten in diesem Zusammenhang spielen, was genau OCR ist und in welcher Form Daten optimaler Weise vorliegen müssen, damit sie vollautomatisch verarbeitet werden können. Außerdem erhalten Sie eine Antwort auf die Frage, was nach OCR kommt.

Im Rahmen unserer SEEOcta- Reihe befasst sich dieser Beitrag dem Thema OCR-Texterkennung. In weiteren Blogs der Perspektive „Daten“ geht es um Data Governance den medienbruchfreien Datenaustausch sowie Big Data.

Die SEEOcta-Blog-Serie beleuchtet die acht wichtigsten Perspektiven für ein erfolgreiches Projektmanagement. Sie erhalten einen Überblick über alle Bereiche, die bei der Planung von Digitalisierungs- und Integrationsvorhaben in Unternehmen zum Tragen kommen. Diese Impulse bilden eine Grundlage und einen Leitfaden für Ihre Projektplanung und helfen Ihnen sicherzustellen, dass Sie alle Aspekte bei der Einführung eines IT-Projektes berücksichtigen.

Was sind unstrukturierte, semi-strukturierte und strukturierte Daten?

Unstrukturierte Daten liegen nicht nur in Papierform vor. Eingescannte Bild, Text, Audio oder Videodateien, also auch per E-Mail versendete Word, PDF oder Excel-Files gelten als unstrukturierte Daten. Solche können nicht ohne weiteres vollautomatisch verarbeitet werden.

(Semi-)Strukturierte Daten liegen dann vor, wenn sie in einem Format wie XML, HTML, JSON oder als Datenbanktabelle zur Verfügung stehen. Elektronische Rechnungsformate (E-Invoicing-Formate) gehören zu (semi-) strukturierten Datenformaten (XRechnung im XML-Format). Hybride Datenformate wie die ZUGFeRD-Rechnung liefern mit der für die Maschine lesbaren XML-Datei auch ein für das menschliche Auge lesbares PDF.

Der Anteil der Papierdokumente, eingescannter Bilddateien oder auch per Mail versendeter Dateien, die in nicht-strukturierter Form vorliegen, ist noch immer höher, als Datenformate, die vollständig strukturiert und elektronisch und somit digital eintreffen. Sie müssen zunächst normalisiert, mithilfe von OCR-Technologie lesbar gemacht, extrahiert und validiert werden, sodass sie schließlich in einem einheitlichen Format weiterverarbeitet werden können.

Derzeitige OCR– und Verarbeitungslösungen sollten mit möglichst vielen Datenarten und Formaten umgehen können, also sowohl strukturierten als auch semi- und unstrukturierten Daten. So können alle Dokumente in einem digitalen Geschäftsprozess abgebildet werden.

Was ist OCR?

OCR steht für optical character recognition, zu Deutsch optische Zeichen- bzw. Texterkennung, und bezeichnet die automatische Erkennung von Zeichen und Schriften auf Bilddateien.

Anfangs wurde die Technologie vor allem für das Lesen von beispielsweise Scheckheften konzipiert. Inzwischen können viele OCR-Arten Druckbuchstaben lesen, einige sind speziell für das Auslesen von Handschriften bzw. Formularen entwickelt. Weiterentwickelte Varianten, sogenannte ICR (Intelligent Character Recognition) können die eigentlichen OCR-Ergebnisse korrigieren und auch handschriftliche Formulare gut erkennen.

Gute OCR-Ergebnisse basieren auf diesen Grundregeln

Die Qualität der OCR-Ergebnisse von eingescannten oder gefaxten Papierdokumenten aber auch PDFs hängt maßgeblich von der Qualität des Originalbelegs ab. Einige Grundregeln sollten beachtet werden, um möglichst gute OCR-Ergebnisse zu erhalten:

Im besten Fall ist die auszulesende Information in schwarzer Schrift auf weißem Hintergrund. Folgende Punkte sollten beachtet werden:
- Keine Farbverläufe im Hintergrund
- Keine weiße Schrift auf schwarzem/grauem und/oder farbigem Hintergrund
- Schrift-Mindestgröße 8pt (besser 9pt)
Keine Leerzeichen zwischen den Buchstaben nutzen
Keine Handschrift, schräg gestellte oder vertikal geschriebenen Informationen
Originalbelege ergeben deutlich höhere Leseraten als Kopien oder Fax-Kopien
Keine Zebra-Darstellungen (eine Zeile weißer Hintergrund, nächste Zeile grauer Hintergrund)
Keine Stempel (Posteingangstempel etc.) anbringen
Keine ‚Allgemeinen Geschäftsbedingungen‘ auf der Rückseite, da diese hinsichtlich der aufzubereitenden Daten keine Relevanz haben.
Keine starken Verschmutzungen. Keine ‚Graffiti‘, Handanmerkungen, Kaffeeflecken etc.

Weitere Tipps und Tricks zu guten Ergebnissen für OCR, Extraktion und Selbstlernen mit DPS Invoice können auch im der Lösung nachgelesen werden.

Abbildung 2: OCR-Erkennung – diese Vorlagen sind für OCR-Lösungen schwer zu erkennen

Was kommt nach der OCR?

Oftmals wird von OCR-Lösungen gesprochen, um unstrukturierte Daten zu verarbeiten. Hier denkt man automatisch an Papierdokumente, obwohl auch per E-Mail versendete PDFs dazu gehören. Eine OCR alleine bringt jedoch in den seltensten Fällen schon die gewünschten Ergebnisse. Moderne Input-Management-Lösungen bieten ein weit über die reine OCR hinausreichendes Portfolio an Funktionen, um unstrukturierte, semistrukturierte und strukturierte Daten zu extrahieren, klassifizieren, validieren und mit weiteren Informationen aus vorhandenen Systemen zu ergänzen.

Nach der Normalisierung der Dateiformate und der eigentlichen OCR-Erkennung erfolgen weitere Prozess-Schritte wie in Abbildung 3 vereinfacht dargestellt. Mithilfe von Extraktions-Engines, automatisierten Prüfregeln und Abgleichen mit Stammdaten wird geprüft, inwiefern die mittels OCR erkannten Daten auch tatsächlich den hinterlegten Stammdaten entsprechen bzw. ob die richtigen Daten erkannt wurden.

Abbildung 3: Auf die OCR-Erkennung folgende Prozess-Schritte.

Am Beispiel eines einfachen Datums auf einem Dokument wird schnell klar, dass eine reine OCR in den meisten Fällen nicht ausreichend ist. Die OCR alleine kann ein Datum erkennen, auf einem Beleg ist jedoch in der Regel mehr als nur ein Datum hinterlegt: Rechnungsdatum, Lieferdatum, Belegdatum, Bestelldatum etc. Extraktions- und Prüfregeln können anhand der Position des Datums auf dem Dokument und des zugehörigen Begriffs wie „Rechnungsdatum“ das richtige Datum ausfindig machen.

Extraktion und automatische Validierung ermöglichen vollständig automatisierte Verarbeitung, sogenannte Dunkelverarbeitung der Belege. Die Sachbearbeitung wird so bei der Korrektur von fehlerhaften, unvollständigen Belegen unterstützt. Zudem wird durch den Stammdatenabgleich auf mögliche Lücken oder notwendige Aktualisierungen in der Datenbank hingewiesen.

Von der klassischen OCR grundsätzlich zu unterscheiden ist außerdem die sogenannte Layout-Klassifikation. Diese kann beispielsweise für die Posteingangsverarbeitung künstliche Intelligenz zur Digitalisierung nutzen und anhand struktureller, charakteristischer Merkmale des Layouts einen Dokumenttyp (wie beispielsweise eine Rechnung) automatisch klassifizieren, ohne die Textinhalte mittels OCR auslesen zu müssen. Eine weitere Art der Klassifikation, die inhaltliche Klassifikation, nutzt wiederum OCR-Ergebnisse, um mittels künstlicher Intelligenz anhand des Dokumentinhalts den richtigen Typen ausfindig zu machen. Die beiden Klassifikationsverfahren sind zudem miteinander kombinierbar. Für bestimmte signifikante Dokumenttypen wie beispielsweise ID-Cards gibt es wiederum eigens entwickelte Klassifikatoren.

Strukturierte Daten

Daten in strukturierter Form stehen am Ende eines gesamten Inputmanagementprozesses bestehend aus OCR, Extraktion, Validierung und bei Bedarf Klassifikation zur Verfügung. Von dort aus können sie digital archiviert und an das jeweilige Fachsystem weitergeleitet werden. In der Regel werden die strukturierten, entscheidungsrelevanten Daten als XML-Datei weiterverarbeitet und exportiert. Der Nachteil der strukturierten Daten im XML-Format ist, dass diese für Maschinen, aber nicht das menschliche Auge lesbar sind. Softwarelösungen wie DocProStar (DPS) Invoice exportieren mit dem XML-File auch den Originalbeleg im PDF-Format mit, um diesem Umstand zu entgehen und auch den Originalbeleg, wie oftmals gesetzlich gefordert, aufzubewahren.

Fazit

OCR ist ein Werkzeug im Erfassungsprozess, nach wie vor eine unverzichtbare Technologie als Brücke über den Medienbruch zwischen Papier und digitaler Verarbeitung. Trotz steigender Belegzahlen der digitalen Formate werden immer wieder Dokumente einer OCR Zeichenerkennung bedürfen. Dank besserer Qualität der Dokumente, die wir mit modernen Scannern erfassen, kann die OCR sehr gute Ergebnisse liefern. Doch ohne eine Input Management Plattform ist die OCR Engine allein keine Lösung. Es bedarf der Integration dieser Technologie in einen intelligenten Erfassungsprozess.

Dieser Beitrag ist Teil der SEEOcta-Projektmanagement-Reihe. In der Blog-Kategorie „SEEOcta“ finden Sie alle gesammelten Beiträge dieser Serie rund um die Einführung eines neuen IT-Projektes.

Vielen Dank für Ihre Nachricht

Wir freuen uns über Ihr Interesse an SEEBURGER

Haben Sie Fragen oder Anmerkungen?

Wir freuen uns hier über Ihre Nachricht.