Die Verarbeitung von Daten ist heutzutage für jedes Unternehmen von großer Bedeutung. Täglich werden enorme Mengen an Daten verschiedenster Art gesammelt, aufbereitet und ausgewertet. Sie werden genutzt, um z.B. Vorhersagen zu künftigen Marktentwicklungen treffen zu können oder das Kaufverhalten von Kund*innen zu verstehen. Dabei unterscheidet man zwischen strukturierten und unstrukturierten Daten. Wo dabei der Unterschied liegt und welche Möglichkeiten der automatisierten Datenverarbeitung es für beide Datenarten gibt, erklären wir euch in diesem Beitrag.

Unterschied zwischen strukturierten und unstrukturierten Daten

Die Daten, die euch und eurem Unternehmen täglich zur Verfügung stehen, lassen sich grundsätzlich in drei Kategorien einordnen: Neben strukturierten und unstrukturierten Daten gibt es als dritte Kategorie die semistrukturierten Daten.

Strukturierte Daten entsprechen immer einem vorgegebenen Format. Dadurch lassen sie sich einfach in eine sog. relationale Datenbank exportieren und dort organisieren. Die bekanntesten relationalen Datenbanken sind unter anderem MySQL oder PostgreSQL. In diesen Datenbanken hat jede Information eine Position, die sich in Zeilen und Spalten ausdrücken lässt. In der Tabelle unten steht der Vorname „Erika“ z.B. in der Spalte 0 und der Zeile 2. Auf diese Weise ist jede Information eines Datensatzes eindeutig zu finden. Ein Beispiel für strukturierte Daten sind Excel Exporte, z.B. aus SAP. Die exportierten Daten werden euch wie hier dargestellt ausgegeben:

Strukturierte Daten - Beispiel Excel

Semistrukturierte Daten lassen sich nicht wie strukturierte Daten in einer relationalen Datenbank organisieren. Sie besitzen aber dennoch eine gewisse Grundstruktur. Ein Beispiel für semistrukturierte Daten sind E-Mails. Während Absender*in, Empfänger*in und Betreff, usw. eine gewisse Grundstruktur bieten, ist der eigentliche Inhalt der Mail als Text strukturlos.

Bei unstrukturierten Daten handelt es sich in der Regel um Texte, Dokumente verschiedener Art, Bilder und Videos. Unstrukturierte Daten liegen in einer unorganisierten und somit maschinell schwer lesbaren und analysierbaren Form vor. Strukturierte Felder in einem Onlineformular sind beispielsweise Felder, bei denen ein Wert per Drop-Down-Menü auswählbar ist. Freitextfelder dagegen sind unstrukturiert und ihr Inhalt somit nicht einfach und strukturiert zu erfassen. Dabei sind unstrukturierte Daten häufig sog. qualitative und damit wichtige Daten. Vor allem die Meinung eurer Kund*innen zu Produkten, Dienstleistungen, o.ä. wird häufig in Form eines Freitexts erfasst. Gängigee Kanäle sind E-Mails, Social Media Kommentare oder Google Bewertungen.

Wie lassen sich Daten verarbeiten?

Mit den uns zur Verfügung stehenden enormen Mengen an Daten könnt ihr erfassen, was in der Vergangenheit passiert ist und Vorhersagen über Szenarien der Zukunft treffen. Konkret helfen euch die Daten z.B. dabei, Informationen zu bestehenden und potenziellen Kund*innen zu erfassen und das zukünftige Nachfrageverhalten vorherzusagen. Damit dies möglich ist, müssen die Daten in einigen Schritten verarbeitet werden:

  1. ERFASSEN
    Im ersten Schritt werden die Daten erst einmal erfasst und gespeichert. Das geschieht häufig vollautomatisch, z.B. mithilfe sogenannter Webcrawler.
  2. AUFBEREITEN
    Anschließend werden die gespeicherten Daten, falls nötig, aufbereitet. Strukturierte Daten sind bereits maschinell lesbar. Unstrukturierte Daten müssen hingegen durch verschiedene Technologien erst so aufbereitet werden, dass die enthaltenen Informationen für die Tools in der weiteren Verarbeitung lesbar sind.
  3. VERARBEITEN
    Abschließend lassen sich die Daten verarbeiten, um gezielt Erkenntnisse aus ihnen zu ziehen. Dafür gibt es, je nach Anwendungsbereich und Komplexität der Analyse, unterschiedliche Tools, wie z.B. Tableau oder IBM Predictive Analytics.

Automatisierte Datenverarbeitung strukturierter Daten

Strukturierte Daten sind meist weniger aufwändig in der Datenverarbeitung als unstrukturierte Daten. Das liegt daran, dass sie bereits in einer strukturierten und damit maschinell lesbaren Form vorliegen. Für die automatisierte Verarbeitung von Daten eignet sich Robotic Process Automation (RPA). Be- und Verarbeitungsschritte müssen dafür regelbasiert (z.B. Wenn-Dann-Schritte) sein. Nur so weiß der Roboter genau wie die Daten zu verarbeiten sind, da er für jedes Ergebnis der Analyse den Folgeschritt kennt. Der Roboter kann sich beispielsweise einen Excel-Report ziehen und die Daten als Input für eine Pivot Tabelle nutzen. Kennt der Roboter alle Ergebnisse der Pivot Analyse und die entsprechenden Folgeschritte, kann er diese problemlos ausführen. So könnt ihr z.B. Kund*innen- und Bestelldaten mit eurem Lagerbestand mittels Pivot Analyse übereinanderlegen. Als Ergebnis könnt ihr euch damit anzeigen lassen, welche bestellten Artikel nicht auf Lager sind. Der Roboter erkennt diese Fälle und benachrichtigt die entsprechenden Kund*innen automatisch über einen Lieferverzug.

Automatisierte Datenverarbeitung unstrukturierter Daten

Bei der automatisierten Datenverarbeitung unstrukturierter Daten und Informationen gibt es vor allem zwei Herausforderungen, die sie von der Verarbeitung strukturierter Daten unterscheiden.

🛑 1. Informationen extrahieren

Das Extrahieren von Informationen aus den unstrukturierten Daten kann, anders als bei strukturierten Daten, nicht regelbasiert erfolgen. Der Grund dafür ist, dass es für einen Roboter keinen Anhaltspunkt gibt, wo sich die bestimmte Information z.B. in einem PDF-Dokument befinden.

Beispiel: In jeder Rechnung befindet sich zwar immer eine Rechnungsnummer, je nach Layout der Rechnung steht diese aber an unterschiedlichen Stellen. Da die Rechnungsnummern nicht, wie bei strukturierten Datenarten, an einer bestimmten Spalten- und Zeilenposition zu finden ist, wird der Roboter sie ohne weitere Hilfe nicht finden.

🛑 2. Entscheidungen treffen

Auch die Entscheidung über wie anschließende Weiterverarbeitung kann bei unstrukturierten Daten nicht wie bei strukturierten Daten regelbasiert erfolgen. Um die richtige Folgehandlung ausführen zu können, muss ein Roboter die Informationen, von denen diese Handlung abhängt, klassifizieren können.

Beispiel: In dem obigen Beispiel der Lagerhaltung erfolgt die Klassifizierung und Folgehandlung wie folgt: Anhand einer Spalte in der erstellten Pivot Analyse, die entweder „Auf Lager“ oder „Nicht auf Lager“ enthält, kann der Roboter nach Regeln entscheiden, was er anschließend tun muss. Wenn ein bestellter Artikel auf Lager ist, wird der Roboter nichts tun. Sollte jedoch ein bestellter Artikel nicht auf Lager sein, wird der Roboter den*die Kund*in benachrichtigen. Der Prozess sieht also so aus:

Datenverarbeitung

Sobald in dieser Spalte ein Wert steht, der ihm nicht bekannt ist, kann er keine Folgehandlung durchführen. Steht dort z.B. „nachbestellt“, würdet ihr als Mensch aus Erfahrungswerten indivuell entscheiden, welche Folgehandlung erfolgt. Entweder benachrichtigt ihr die Kund*innen über den Lieferverzug oder sendet keine Nachricht, da ihr wisst, dass der bestimmte Artikel in der Regel schnell nachgeliefert wird. Diese Entscheidung ist einzelfallabhängig und kann somit nicht von einem Roboter regelbasiert getroffen werden.

Unstrukturierte Daten mit intelligenten Technologien verarbeiten

Um die oben genannten Herausforderungen bei der automatisierten Datenverarbeitung von unstrukturierten Daten zu lösen, können wir RPA um intelligente Technologien erweitern. Somit können wir auch komplexere, nicht regelbasierte Prozesse ausführen lassen. Bei diesen Technologien handelt es sich um:

Die vier Technologien statten einen Software Roboter mit menschlicher Intelligenz aus. Dadurch kann er auch Aufgaben durchführen, die nicht immer nach exakt demselben Muster ablaufen.

Dabei ermöglicht es OCR als Texterkennungssoftware unstrukturierte Informationen z.B. aus PDF-Dokumenten mithilfe von Document Understanding zu extrahieren und in einer strukturierten Form zu speichern. So wird der Roboter beispielsweise befähigt, Rechnungsnummern aus Rechnungen zu extrahieren.

ML und NLP sind Teilgebiete von Künstlicher Intelligenz und ermöglichen, dass Maschinen, wie z.B. Software Roboter, mit künstlicher Intelligenz funktionieren. KI ermöglicht es, komplexere Regeln zu erstellen und weitere Faktoren, wie z.B. Wahrscheinlichkeiten, einzubeziehen.

Mit Machine Learning kann der Roboter durch das Sammeln und Interpretieren von Daten sowie aus vergangenen Erfahrungen lernen. Aus diesem Erfahrungsschatz lassen sich Modelle erstellen, die es dem Roboter ermöglichen Ereignisse zu interpretieren. In dem oben genannten Beispiel kann der Roboter durch die künstliche Intelligenz und Erfahrungswerte z.B. wie ein Mensch abschätzen, ob er Kund*innen wegen eines Lieferverzugs benachrichtigen muss, wenn ein Artikel den Status „nachbestellt“ hat.

NLP beschäftigt sich damit einer Maschine beizubringen, menschliche Sprache als Text und in gesprochener Form zu verstehen. Diese wird dann wiederum mit Hilfe von ML interpretiert. So werden unstrukturierte Daten, wie z.B. E-Mail-Texte oder Kommentare, strukturiert und damit verwertbar und analysierbar.

Lohnt sich die Verarbeitung unstrukturierter Daten?

Daten liegen uns heutzutage durch die Digitale Transformation und die damit verbundene fortschreitende Digitalisierung als ein riesiger Datenberg vor. Dieser wird auch als Big Data bezeichnet.
Bei Strukturierten Daten kann die Datenverarbeitung automatisiert erfolgen und ist mit wenig Aufwand verbunden. Aber gerade unstrukturierte Daten bergen ein enormes Potenzial, wenn es darum geht Erkenntnisse zu gewinnen und Vorhersagen auf Datenbasis zu treffen. Die dafür wichtigsten Daten sind nicht die strukturierten, sondern die unstrukturierten Daten. Da deren Analyse extrem komplex ist, ist sie teuer und nur mit technologisch anspruchsvollen Tools umsetzbar. Die Investition in die automatisierte Verarbeitung dieser Daten, z.B. durch RPA in Kombination mit intelligenten Technologien, ist aber lohnenswert.

Die Erkenntnisse, die ihr aus unstrukturierten Daten ziehen könnt, helfen euch z.B. dabei eure Produkte, Dienstleistungen und Geschäftsmodelle maßgeschneidert auf zukünftige Rahmenbedingungen und Bedürfnisse zu entwickeln. Das führt dazu, dass der richtige Umgang mit unstrukturierten Daten zunehmend wettbewerbsentscheidend wird.