State of the Art – Web Scraping

Aktuell umfasst das indexierte Internet laut worldwidewebsize.com circa 5 Milliarden erfasste Webseiten und im Jahr 2018 betrug das Datenaufkommen weltweit um die 33 Zettabyte, was etwa 33 Billionen Gigabye entspricht und sich Prognosen zufolge bis zum Jahr 2025 verfünffachen soll.
Mit dem damit verbundenen rapiden Wachstum des Informationsvolumens, welches das Internet heutzutage liefert, haben sich neben den neuen Möglichkeiten der Nutzung auch die Problemstellungen der immer stärker werdenden Heterogenität und Unkontrollierbarkeit der Masse und Relevanz von Informationen im WWW entwickelt. Web Scraping stellt im Kontext der gezielten Informationsbeschaffung aus dem Internet eine Lösung dar, diesen Herausforderungen entgegenzutreten.

Indem gezielt relevante Informationen zu einer spezifischen Fragestellung aus zuvor definierten Internetquellen extrahiert, aufbereitet und weiterverarbeitenden Tools zur Verfügung gestellt werden, können mithilfe dieser Methode verschiedenste Anwendungsfelder bedient werden, um die Fülle an Informationen für wirtschaftliche und forschungsrelevante Zwecke zu nutzen. Genannt seien Marktmonitoring, Meinungsmonitoring zum eigenen Produkt, Preismonitoring auf Vergleichsportalen und Informationsbeschaffung im Wissenschaftsbereich, die dank Web Scraping Inkompatibilitäten zwischen verschiedenen Datenbanken und Plattformen umgeht.

Zielsetzung und Erkenntnisinteresse:

Ziel der Arbeit soll es sein, den Begriff „Web Scraping“ im Kontext der Web Data Extraction zu definieren und den aktuellen Stand der Wissenschaft und Technologien in diesem Feld darzustellen.

Abschlussarbeit

Abschluss

B.Sc.

Bearbeiterin

Kolja Günther

Betreuer/in

Philipp Schaer Mandy Neumann

Information Retrieval Research Group

IR Research Group

Technische Hochschule Köln

State of the Art – Web Scraping