State of the Art: Web Scraping

State of the Art: Web Scraping

Web Scraping, Web Harvesting, Web Data Extraction, Web Content Mining - verschiedene Begriffe werden verwendet, um ein Verfahren zu beschreiben, welches gezielt strukturierte Daten aus dem Web extrahiert. In dieser Literaturarbeit soll ein Überblick erstellt werden über existierende Verfahren, sowohl in Industrie als auch Forschung. Folgende Fragestellungen können beispielsweise im Rahmen der Arbeit aufgegriffen werden:

Sind alle genannten Begriffe Synonyme oder haben sie unterschiedliche Konnotationen? Wie ist das Verhältnis zu “klassischer” Informationsextraktion? Welche Techniken und Verfahren werden in der Literatur vor- und gegenübergestellt, was sind Vor- und Nachteile? Wie sieht die historische Entwicklung in dem Bereich aus? Wie lässt sich Software zur Datenextraktion aus dem Web klassifizieren? Welche Anwendungsgebiete gibt es im kommerziellen wie im wissenschaftlichen Bereich?

Anforderungen

  • Spaß am wissenschaftlichen Arbeiten und dem Lesen aktueller Literatur
  • Grundlegende Kenntnisse über die Funktionsweise des Web werden vorausgesetzt

Abschlussarbeit

Abschluss
BA/ MA
Bearbeiterin
n.a.