Dokumente werden ständig und überall benötigt und verarbeitet. In Dokumenten-intensiven Industrien, wie der Versicherungs- und Finanzbranche sowie dem öffentlichen Sektor oder Unternehmensbereichen, wie beispielsweise dem Personalwesen. Das manuelle Bearbeiten von Dokumenten ist nicht nur zeitaufwendig und fehleranfällig, sondern oft auch wenig wertschöpfend und eine ungeliebte Aufgabe vieler Mitarbeiter*innen. Mithilfe der Technologie Document Understanding können Software Roboter die Mitarbeiter*innen unterstützen. Unter Document Understanding versteht man das automatisierte Lesen, Interpretieren und anschließende Verarbeiten von dokumentbasierten Daten. Die Technologie bedient sich dabei dieser drei wesentlichen Kerntechnologien:
- Optical Character Recognition (OCR) bzw. Texterkennung,
- Robotic Process Automation (RPA)
- Künstliche Intelligenz (KI).
Wie genau funktioniert Document Understanding?
Mithilfe von RPA lässt sich ein Document Understanding Roboter erstellen. Der Workflow wird in einer entsprechenden Software, wie z.B. UiPath, bausteinbasiert aufgebaut und erhält immer sechs wesentliche Schritte:
- Taxonomie erstellen: Eine Taxonomie ist ein Klassifizierungsmodell. Im sog. Taxonomy Manager muss man erst einen Dokumententyp definieren und die auszulesenden Felder klassifizieren (Bspw. Rechnungsnummer, Rechnungsdatum und -Summe).
- Dokument digitalisieren: Mithilfe von OCR lässt sich das zuvor definierte Dokument digitalisieren und in eine für den Roboter lesbare Textform bringen.
- Klassifizieren: Anhand von Keywords kann der Roboter das digitalisierte Dokument einer im Taxonomy Manager definierten Dokumentenklasse zuordnen.
- Extrahieren: Nachdem der Roboter identifiziert hat, um welche Art von Dokument es sich handelt, können die Daten aus den einzelnen Feldern ausgelesen werden. Dabei können regelbasierte oder modellbasierte Ansätze zur Anwendung kommen.
- Validieren: Optional können Mitarbeiter*innen die Ergebnisse des Extrahierens in der Validation Station angezeigt werden. Dort lassen sich ausgelesene Werte kontrollieren und korrigieren werden.
- Exportieren: Abschließend können die ausgelesenen Daten in verschiedene Systeme exportiert werden. Dabei kann es sich beispielsweise um Excel oder Drittsysteme wie SAP handeln.
Welche Dokumente können ausgelesen werden?
Genau wie ein Mensch muss ein Roboter beim Document Understanding Dokumente lesen und verstehen und genau wie einem Menschen fällt ihm das bei strukturierten Dokumenten leichter als bei unstrukturierten. Auf einem Personalausweis findet man in der Regel die gesuchte Information auf den ersten Blick. In AGB’s dagegen muss man erstmal etwas suchen. Um den Menschen bei strukturierten, semi-strukturierten und unstrukturierten Dokumenten unterstützen zu können, bietet beispielsweise UiPath unterschiedliche Ansätze an:
- Beim Auslesen von strukturierten Dokumenten kommt ein regelbasierter Ansatz zur Anwendung. Bei dieser Art von Dokument steht die gesuchte Information immer an derselben Stelle und ist immer gleich bezeichnet. In einem standardisierten Formular befindet sich die Telefonnummer z.B. immer an derselben Stelle, sodass der Roboter diesen Wert eindeutig findet.
- Semi-strukturierte Dokumente zeichnen sich dadurch aus, dass sie zwar dieselben Informationen enthalten, diese aber an unterschiedlichen Positionen im Dokument zu finden sind. Beim Auslesen dieser Art von Dokument kann Künstliche Intelligenz unterstützen. Machine Learning Modelle können in diesem Fall die gesuchte Information anhand von Schlüsselwörtern finden. Im obigen Beispiel ist dieses Schlüsselwort dann „Telefonnummer“ und kann auf einer beliebigen Seite an beliebiger Position zu finden sein.
- Unstrukturierte Dokumente enthalten gesuchte Informationen an beliebiger Stelle und ohne Schlüsselwörter. Auch hier kommen Machine Learning Modelle zum Einsatz, allerdings deutlich komplexere. Durch ihre Fähigkeit zu Lernen werden Machine Learning Modelle immer genauer, je häufiger man sie anwendet.
Dank dieser verschiedenen Ansätze können Dokumente unterschiedlicher Dateiformate, auch eingescannte, ausgelesen werden. Neben einfachen Zahlen oder Wörtern können Document Understanding Roboter auch Checkboxes und Tabellen erfassen.
Welchen Mehrwert bietet Document Understanding?
Vor allem dort, wo großen Mengen an Dokumenten verarbeitet werden müssen, kann der Einsatz der Document Understanding Technologie enorme Zeit- und Kostenersparnisse erzielen. Neben der Effizienzsteigerung kann sich außerdem die Fehlerquote stark reduzieren. Denn ein Roboter arbeitet beim Auslesen von Dokumenten und dem anschließenden Verarbeiten der Daten, wie z.B. das Eintragen in ein System, deutlich genauer als ein Mensch.
Außerdem kann sich die Mitarbeiter*innenzufriedenheit durch die Unterstützung eines Document Understanding Roboters steigern. Mitarbeiter*innen empfinden das Verarbeiten von Dokumenten oft als lästig und ermüdend. Diese Aufgabe kann der Roboter fast komplett übernehmen. Durch die Möglichkeit, eine Mindestgenauigkeit für die ausgelesenen Ergebnisse des Roboters festzulegen, kann er sogar ganz ohne menschliche Interaktion arbeiten, solange er die Mindestgenauigkeit nicht unterschreitet. Sollte dieser Fall eintreten, wird eine Aufgabe zur Validierung der Ergebnisse erstellt und der Roboter wartet auf die Rückmeldung des Menschen. So können Mitarbeiter*innen ihre Zeit für wertschöpfende Tätigkeiten verwenden. Auch auf die Zufriedenheit von internen und externen Kund*innen kann sich der Einsatz von Document Understanding positiv auswirken. Die Geschwindigkeit und Qualität von Prozessen lässt sich so deutlich erhöhen und das merken am Ende auch die Kund*innen.
Ausblick
Schon heute bringen Document Understanding Roboter große Einsparungs- und Optimierungspotentiale mit sich und können Mitarbeiter*innen bei ungeliebten und aufwendigen Aufgaben unterstützen. Auch deshalb ist die Technologie eines der am schnellsten wachsenden Segmente im Bereich RPA. Das Entwicklungspotential hängt vor allem davon ab, wie gut sich Texterkennungstechnologien und Künstliche Intelligenz weiterentwickeln. Je besser diese Technologien werden, desto genauer können unstrukturierte Dokumente verarbeitet werden und schwer einlesbare Formate, wie z.B. Handschriften erkannt werden.