Scraping ist ein englischer Begriff und bedeutet übersetzt „kratzen“. Beim Scraping werden Daten, Texte oder Bilder aus Softwareanwendungen, Webseiten, o.ä. kopiert und gespeichert, um sie weiter zu verwenden. Die Daten kommen aus externen Quellen. Je nach Verwendungszweck der ausgelesenen Daten kann es sich dabei beispielsweise um URLs oder Kontaktdaten handeln. Im Zusammenhang mit dieser Art der Datenbeschaffung stößt man auf unterschiedliche Bezeichnungen:
- Screen Scraping: Auslesen von Texten auf Computerbildschirmen
- Web Scraping: Scraping im Web
- Data Scraping: Sucht nach bestimmten Datenmustern, z.B. URLs zu einer Suche bei Google
- Image Scraping: Bildsuche
Wozu wird Scraping genutzt?
Scraping wird in der Regel dafür genutzt, große Datenmengen zu einer bestimmten gesuchten Information zu sammeln. Typische Anwendungsfälle und Beispiele für Scraping sind:
Vertrieb:
Scraping wird hier genutzt, um beispielsweise neue Kontakte für mögliche Vertriebschancen zu finden und strukturiert abzuspeichern. Beispielsweise kann ein*e Vertriebsmitarbeiter*in einer Brauerei alle Gastronomiebetriebe finden, die bestimmten Kriterien, z.B. eine Region, entsprechen.
Finanzen:
Scraping wird hier z.B. dazu verwende, laufend Börsenkurse zu sammeln.
Vergleichsportale:
Diese Art der Datenbeschaffung wird genutzt, um die aktuellen Preise der gelisteten Anbieter abzurufen und den Kund*innen passend zu ihrer Suche zur Verfügung zu stellen.
Produktentwicklung/-management:
Scraping kann dabei unterstützen eine Aufstellung über Konkurrenzprodukte mit ihren Features, Preisen und Bewertungen zu erhalten.
Wie funktioniert Scraping?
Die meisten Webseiten oder Anwendung, die wir nutzen, geben uns keine Möglichkeit alle verfügbaren Informationen gesammelt zu kopieren und herunterzuladen. Ohne die Unterstützung von Software müssten wir die relevanten Informationen manuell kopieren und abspeichern. Das ist aber sehr aufwendig und nur sinnvoll, wenn wir einzelne Informationen suchen. In der Regel müssen aber große Datenmengen zu der gesuchten Information erhoben und verglichen werden. Zu diesem Zweck können wir Scraping nutzen, um das Sammeln der Daten zu automatisieren. Das funktioniert mithilfe von Algorithmen und Software. Diese automatisierten Lösungen haben unterschiedliche Möglichkeiten auf Informationen zuzugreifen. Eine Möglichkeit ist, auf die im Hintergrund gespeicherten Daten, z.B. den HTML-Code einer Webseite, zugreifen. Eine andere Vorgehensweise greift auf die Oberfläche einer Anwendung oder einer Webseite zu und kann nur die Informationen kopieren, die auch für einen Menschen unmittelbar sichtbar sind. Diese Methode wird als Screen Scraping bezeichnet.
Für beide Arten des Scrapings werden häufig Softwareroboter eingesetzt. Eine der einfachsten und robustesten Möglichkeiten das Scraping mithilfe von Softwarerobotern durchzuführen, ist Robotic Process Automation (RPA). RPA nutzt die Technologie des Screen Scrapings, bei der ein sogenannter Bot dieselben Schritte ausführt, die ein Mensch beim manuellen Scraping durchführen würde. Das passiert nur wesentlich schneller und effizienter.
Datenscraping mit Robotic Process Automation (RPA)
Mithilfe der RPA Software UiPath lässt sich das Scraping von Daten ganz leicht durchführen. Wir zeigen euch am oben genannten Beispiel aus dem Finanzbereich, wie es funktioniert. Wir möchten, dass der Softwareroboter die aktuellen Dax-Börsenkurse ausliest und strukturiert abspeichert, sodass wir diese Daten im Anschluss einfach weiterverarbeiten können. Dazu könnt ihr das Studio von UiPath nutzen.
Mit einer „Open Browser“ Aktivität öffnet ihr die Webseite der deutschen Börse:
In der Menüleiste vom UiPath Studio wählt ihr „Datenextraktion“:
Es öffnet sich ein Fenster in dem der Assistent euch auffordert das Datenquellfeld auszuwählen. Das ist der Ort, an dem sich die erste Information, die ihr extrahieren möchtet, befindet. Ihr klickt auf „Weiter“, sodass der Assistent den Auswählmodus startet.
Im Auswahlmodus wird euch als blauer Kasten angezeigt, welchen Bereich ihr gerade auswählen könnt. Navigiert mit der Maus zu dem ersten Wert in der Übersicht der Börsenkurse (siehe roter Kasten im Bild), sodass nur dieser mit dem blauen Feld markiert ist und klickt.
In diesem Fall sind die Daten auf der Webseite in Form einer Tabelle dargestellt und das erkennt die Software. Deshalb fragt sie euch, ob ihr alle Daten aus der gesamten Tabelle extrahieren wollt. Nachdem ihr dies bestätigt, seht ihr eine Vorschau der extrahierten Daten.
Mit dem Klick auf „Fertig stellen“, gelangt ihr zurück ins UiPath Studio. Dort ist der Workflow des Roboters zur Datenextraktion automatisch erstellt worden. Nun liegen euch die gesamten Dax-Daten in Form einer Datentabelle vor. Diese strukturierten Daten könnt ihr nun z.B. in einer Excel-Datei speichern und anschließend aufbereiten und analysieren.
Ist Scraping legal?
Viele assoziieren Scraping und insbesondere Web Scraping erstmal mit Datendiebstahl. Tatsächlich wird die Technologie zu illegalen Zwecken genutzt, beispielweise um an Kontaktdaten für Werbezwecke zu gelangen, wobei der*die Kontaktierte nicht zustimmen konnte. Das Auslesen von Daten ist allerdings legal, wenn es sich um für jedermann frei zugängliche Daten handelt, wie die Börsendaten aus dem obigen Beispiel. Trotzdem müsst ihr einiges beachten bevor ihr Scraping anwendet:
Fazit
Heutzutage benötigen wir in fast jedem Bereich der Wirtschaft große Mengen an Daten. Diese Informationen manuell zu beschaffen, ist sehr zeitaufwendig und fehleranfällig. Für das automatisierte Scraping von Daten gibt es mittlerweile eine Vielzahl an Softwareprodukten, die euch dabei helfen, die Datenbeschaffung wesentlich zu vereinfachen. Wir empfehlen euch, Robotic Process Automation für das Scraping zu nutzen. UiPath bietet eine einfache und robuste Art der Umsetzung. Dabei solltet ihr immer darauf achten, die rechtlichen Vorgaben einzuhalten und zu überprüfen, ob ihr die Daten verwenden dürft.