Rechnungsdaten aus bildhaften Rechnungen: OCR-/Freiformerkennung

SEEBURGER

The Engine Driving Your Digital Transformation

E-Invoicing

OCR-/Freiformerkennung der 3. Generation

|

OCRMit modernen Lösungen und einer gesunden Datenbasis die Effizienz der Rechnungseingangsverarbeitung steigern

Freiformerkennung der 3. Generation vereinfacht und harmonisiert den Rechnungseingangsprozess nachhaltig. Das Potenzial einer modernen OCR-Erkennungslösung kommt noch besser zur Geltung, wenn vorab die Organisation und Prozesse des Rechnungseingangs restrukturiert und mittels Workflow automatisiert werden. Eine bereinigte Stammdatenbasis ist hierbei von grundlegender Bedeutung.

Es ist schon beeindruckend, wie schnell und in welcher Qualität eine moderne OCR-Erkennungslösung Rechnungsdaten aus bildhaften Rechnungen erkennt. Es ist jedoch kurzsichtig anzunehmen, dass allein der Einsatz einer OCR-Erkennungslösung mit hoher Erkennungsrate bereits zu einer deutlichen Effizienzsteigerung des gesamten Rechnungseingangsprozesses führt. Schließlich macht auch die beste OCR-Erkennungslösung Fehler – und wenn ein Rechnungsbeleg wegen einer OCR-Korrektur erst einmal manuell nachbearbeitet werden muss, dann macht es für den Bearbeiter kaum einen messbaren Unterschied, ob er nun ein oder zwei Felder korrigiert. Das Verbesserungspotenzial liegt woanders.

Wollen Sie Ihren Rechnungseingangsprozess nachhaltig effizienter gestalten, dann sollten Sie sich zunächst einmal den Rechnungsfreigabe-Workflow nach der ORC-Erkennung ansehen und die interne Organisations- und Prozessstruktur Ihres Unternehmens hinterfragen. Schließlich lässt sich der Rechnungsfreigabeprozess oft deutlich verbessern, wenn er nur noch ein oder zwei verantwortliche Stellen durchlaufen muss, statt wie bisher drei oder mehr. Des Weiteren wird der Ablauf stark vereinfacht, wenn die beteiligten Bearbeiter nicht mehr manuell zugeordnet, sondern durch intelligente Regeln im Workflow automatisch ermittelt werden.

Ob hingegen eine erste OCR-Erkennungslösung eine Erkennungsrate von 83% und eine zweite von 85% liefert, ist unerheblich. Die Aussagen der verschiedenen OCR-Anbieter zu den Erkennungsraten sind nämlich nicht normiert und haben daher völlig unterschiedliche Bedeutungen (siehe Kasten).

Was die Aussage »90% Erkennungsrate« alles bedeuten kann:

a. 9 von 10 Zeichen werden korrekt erkannt.

b. 9 von 10 Rechnungsfeldern werden sauber erkannt.

c. 9 von 10 Rechnungsseiten werden korrekt erkannt.

d. 9 von 10 Rechnungen können ohne jegliche OCR-Korrektur weiterverarbeitet werden.

 

Die Tücke liegt im Detail. Grundsätzlich gilt: Erkennungsraten können stets nur im Kontext mit den hinterlegten ERP-Stammdaten beurteilt werden. Wurde in den ERP-Stammdaten für einen Kreditor beispielsweise eine falsche Steuernummer, unvollständige Adressdaten oder schlechte Bestelldaten hinterlegt, fehlt die Umsatzsteuer-ID oder existieren Stammdatendubletten, kann auch die beste OCR-Software den Kreditor nicht korrekt ermitteln.

Darum ist eine bereinigte Stammdatenbasis so wichtig:

Eine typische Rechnungsseite besteht aus 3.000 Zeichen. Bei einer angenommenen OCR-Zeichenerkennungsrate von 99% bedeutet dies, dass pro Rechnungsseite ca. 30 Zeichen fehlerhaft erkannt werden. Wie wirkt sich dies auf die Erkennungsraten auf Ebene der einzelnen  Rechnungsfelder und Rechnungsseiten aus?

Angenommen ein Rechnungsfeld (z.B. Straße des Lieferanten) besteht aus 10 Zeichen. Daraus ergibt sich eine Felderkennungsrate von ca. 90% (0,9910 = 0,9). Bezogen auf eine Rechnungsseite mit 15 zu extrahierenden Rechnungsfeldern (Rechnungsnummer, Kreditorenname, Rechnungsbeträge, etc.) reduziert sich die Erkennungsrate pro Seite somit auf ca. 20% (0,915 = 0,2). Das bedeutet, dass allein auf Basis der OCR-Erkennung nur eine von fünf einseitigen Rechnungen vollständig korrekt erkannt wird – es sei denn, es die Rechnungsfelder werden, wie in Freiformerkennungslösungen der 3. Generation üblich, zusätzlichen Plausibilitätsprüfungen (mathematisch, Wertebereich, Format, etc.) unterzogen und gegen die Stammdaten validiert.

Die entscheidende Frage für Unternehmen, die die Effizienz ihres Rechnungseingangsprozesses steigern wollen, ist daher nicht so sehr die Erkennungsrate der OCR-Erkennungslösung, sondern vielmehr, wie die Qualität der Kreditorenstamm-, Bestell- und Wareneingangsdaten beschaffen sein muss, um eine Dunkelbuchungsrate von mehr als 50% zu erreichen.

Freiformerkennung der 3. Generation

OCR-Ergebnisse werden durch eine Interpretationskomponente, die sogenannte Erkennung, bearbeitet. Diese Technologie beruht bei modernen OCR-Erkennungslösungen auf einem Freiform-Ansatz der 3. Generation. Um entsprechende Interpretationsergebnisse zu erzielen, orientiert sich der Freiform-Ansatz unter anderem an Schlüsselwörtern und Relationen kombiniert mit entsprechendem Hintergrundwissen (Kreditorenstamm, Bestelldaten), welches durch das ERP-System bereitgestellt wird.

Die Vorteile:

Keine Templates: Im Gegensatz zu den früher üblichen formularbasierten Erkennungsansätzen müssen beim Freiformansatz keine kreditorenbezogenen Rechnungsvorlagen (sog. Templates) o. ä. mehr durch den Rechnungsempfänger angelegt werden, bevor die Rechnungen auch von neuen Kreditoren prozessiert werden können.

Fehlertoleranz: Der Freiformansatz ist grundsätzlich fehlertolerant. Nicht – oder fehlerhaft erkannte Feldinhalte stellen keine Systemfehler als solche dar, die zum Abbruch der automatisierten Verarbeitung der Eingangsrechnung führen, sondern sind als »Erkennungsunschärfen« im Rahmen des Freiform-Ansatzes grundsätzlich möglich. Fehlerursache können Logiken, OCR-Fehler, Positionierungen im Umfeld von Schlüsselwörtern, oder ähnliches sein.

Lernendes System: Durch die tägliche Korrektur und das integrierte Lernverfahren wird die Erkennungsrate der 3. Generation der Freiformerkennung kontinuierlich verbessert.

Arten der Erkennung

Arten der Erkennung

Fazit

Die SEEBURGER AG setzt mit ihren Produkten »Invoice Portal Cloud Service« und der SAP-integrierten Lösung »Purchase-to-Pay« in Zusammenarbeit mit ihrem OCR-/Erkennungspartner TCG ausschließlich auf die Freiformerkennung der 3. Generation.

Möchten Sie mehr über die OCR-/Freiformerkennung der SEEBURGER AG erfahren, kontaktieren Sie uns gerne!

Haben Sie Fragen oder Anmerkungen?

Wir freuen uns hier über Ihre Nachricht.

Teilen Sie diesen Beitrag, wählen Sie Ihre Plattform!
Rolf Holicki

Über den Autor:

Rolf Holicki, Director Business Unit E-Invoicing, SAP&Web Prozesse, ist verantwortlich für die SAP-/WEB-Applikationen. Er hat mehr als 25 Jahre Erfahrungen in den Bereichen E-Invoicing, SAP, Workflow und Geschäftsprozessautomatisierung. Rolf Holicki ist seit 2004 bei SEEBURGER.