“Emoji Sentiment Ranking 2.0”: UTF-8 Emoji Sentiment Lexicon
In der Sentiment Analyse werden Texte hinsichtlich ihres geäußerten Sentiments untersucht, also wie positiv oder negativ ein Text konnotiert ist. In Sentiment Lexikons wird die mit Tokens verknüpfte emotionale Komponente festgehalten. Bisherige Lexikons enthalten in der Regel kaum Informationen zu Emojis, insbesondere nicht zu plattformspezifischen Emojis. Dies ist problematisch für die Sentiment Analyse von Texten, in denen diese Emojis als primäres Mittel zum Ausdrücken von Sentiments verwendet werden.
Es existiert zwar ein Gold Standard Emoji Sentiment Lexicon, das ESR (s.u.), dieses ist aber bereits 6 Jahre alt und enthält für viele oft genutze Emojis keine Einträge. Manuelle Annotation von Emoji Sentiments ist jedoch sehr aufwändig. In einem ersten Ansatz (Haak 2021, s.u.) wurde gezeigt, dass es möglich ist, automatisch Emoji Sentiment Lexikons zu erzeugen über Kookurrenzen in Sentiment . Kern dieser Arbeit soll es sein, ein neues, umfangreiches Emoji Sentiment Lexikon nach Vorbild des ESR zu erzeugen. Dazu muss zunächst ein Korpus aus Tweets zusammengestellt und aufbereitet werden. Abschließend soll ein Vergleich mit dem ESR und ein Test mit einem Sentiment-Datensatz Aufschluss über die Effektivität des neuen Sentiment Lexikons geben.
Relevante Literatur und Links
Emoji Sentiment Ranking Haak 2021: Design and Developmen of an Emoji Sentiment Lexicon ESUPOL - Einfluss von Suchmaschinen auf die politische Meinungsbildung
Anforderungen
- Grundkenntnisse in Statistik und Python, insbesondere Natural Language Processing und Sentiment Analyse
- Interesse, sich multidisziplinarischen Problemen zu stellen
- Spaß am Aufbereiten und Analysieren größerer Datensätze