Metadaten-Harvest informationswissenschaftlicher Promotionen
In diesem Projekt, das in Zusammenarbeit mit dem Hochschulverband Informationswissenschaft ausgeschrieben wird, soll eine Übersicht über Promotionen erstellt werden, die im deutschsprachigen Raum im erweiterten Themenspektrum der Informationswissenschaft veröffentlicht wurden.
Metadaten zu den Promotionen (tw. inkl. der Volltexte) werden üblicherweise auf Hochschulschriftenservern zur Verfügung gestellt, jedoch bisher nicht zentral an einer Stelle gesammelt und durchsuchbar zur Verfügung gestellt. Hochschulschriftenserver sind meist über das Protkoll OAI-PMH abrufbar, was eine einfache Abfrage und Weiterverarbeitung der Metadaten erlauben würde. Es kann jedoch durchaus sein, dass dies nicht immer der Fall ist und daher auf alternative Ansätze wie Web-Scraping zurückgegriffen werden müsste.
Hier soll die Arbeit ansetzen und folgende Arbeitspakete bearbeiten:
- Erstellung einer Übersicht über die Hochschulschriftenserver deutscher Universitäten, inkl. der Überprüfung welche Protokolle zur Abfrage von Metadaten angeboten werden
- Einarbeitung in das Protokoll OAI-PMH
- Programmierung einer Harvesting-Infrastruktur, die alle verfügbaren Quellen regelmäßig abfragt und einen Update-Prozess für vorhandene Daten bereitstellt
- Programmierung einer Web-Scraping-Lösung (z.B. mit Scrapy), die Quellen, die kein OAI-PMH bereitstellen, ebenfalls abrufbar macht
Konzeptielle Überlegungen zur Fragen der Daten-Homogenisierung, Dublettenprüfung, usw. sollten in den obigen Aufgaben jeweils mitgedacht werden.
Relevante Literatur und Links
Anforderungen
- Kenntnisse von IR-Systemen (Solr, Lucence, etc.)
- Spaß am wissenschaftlichen Arbeiten und dem Lesen aktueller, englischer Literatur
- Praktische Erfahrungen in der Programmierung mit z.B. Python oder einer anderen Sprache, für die es OAI-PMH-Bibliotheken gibt