Entwicklung eines IR-Systems basierend auf Pseudo-Relevance Feedback und Evaluation der Reproduzierbarkeit
Für die empirischen Wissenschaften ist die Reproduzierbarkeit von Ergebnissen von zentraler Bedeutung. Meta-Analysen und Umfragen ergaben jedoch, dass viele wissenschaftliche Veröffentlichungen nur begrenzt oder gar nicht reproduzierbar sind. Insbesondere die “Information Retrieval”-Community hat in der zweiten Hälfte des vergangenen Jahrzehnts eine Reihe von Bestrebungen zur Untersuchung und Sicherstellung der Reproduzierbarkeit etabliert. So werden beispielsweise Teilnehmer von Workshops motiviert, ältere IR-Verfahren zu reproduzieren.
Im Rahmen dieser Abschlussarbeit soll eine Reproduzierbarkeitsanalyse durchgeführt werden. Als Grundlage dient hierzu die Beschreibung eines Retrievalverfahrens, welches einen Relevanzklassifikator auf Basis von “Pseudo relevance feedback” trainert. Auf Basis von gegebenen “Topics” werden Anfragen an Google geschickt und Trainingsdaten aus der Ergebnisseite extrahiert. Im Sinne einer TREC-Evaluation wird das rekonstruierte System ausgewertet und die Reproduzierbarkeit gemessen. Neben der möglichst exakten Rekonstruktion sollen weitere Aspekte des Verfahrens gesondert untersucht werden. Bespielsweise lässt sich die Art einer Anfrage oder die angefragte Websuchmaschine variieren. Eine strukturierte Analyse soll Aufschluss über den Einfluss einzelner Systemkomponenten auf die Reproduzierbarkeit geben. In der Arbeitsgruppe sind bereits Vorarbeiten vorhanden und können gegebenenfalls als Grundlage für die Abschlussarbeit verwendet werden.
Relevante Literatur und Links
MRG_UWaterloo Participation in the TREC 2018 Common Core Track
Anforderungen
- Erste praktische Erfahrung in der Programmierung mit z.B. Python
- Kenntnisse von und Interesse an IR-Systemen, Web Scraping und Machine Learning
- Spaß am wissenschaftlichen Arbeiten und dem Lesen aktueller, englischer Literatur