Bei dem Durchsuchen von wissenschaftlichen Datenbanken nach Forschenden kommt es häufig zu einer Ambiguität der Namen. So decken die 50 häufigsten Nachnamen in Deutschland rund drei Prozent der Population ab (Akademie der Wissenschaften und der Literatur 2021). Dies führt insbesondere bei der Zuordnung von wissenschaftlichen Veröffentlichungen zu Problemen, da der Name kein eindeutig identifizierendes Merkmal einer Person ist. So kann es sein, dass eine Identifikation unter alleiniger Beachtung des Namens des Publizierenden nicht möglich ist, da es mehrere Forschende mit übereinstimmenden Namen geben kann. Um diesem Problem entgegenzuwirken, werden die Namen disambiguiert. Bei der Disambiguierung werden weitere Eigenschaften einer Person hinzugezogen, um somit die Zahl der Personen einzugrenzen.
In dieser Arbeit werden verschiedene Methoden zur Disambiguierung gegenübergestellt, evaluiert und auf den Anwendungsfall des SMC angewendet. Im Rahmen dieser Projektarbeit wurde ein Tool entwickelt, das die Funktionalitäten der Autor:innennamendisambiguierung (AND) beinhaltet.
Betrachtet man die 50 häufigsten Nachnamen in Deutschland, ist Folgendes zu erkennen: − 1,4 % (ca. 1,13 Mio.) der Bevölkerung tragen die zehn häufigsten Nachnamen. − 2,3 % (ca. 1,87 Mio.) der Bevölkerung tragen die 25 häufigsten Nachnamen. − 3,3 % (ca. 2,69 Mio.) der Bevölkerung tragen die 50 häufigsten Nachnamen. Dies geht aus einer Erhebung des Projekts „Digitalen Familiennamenwörterbuch Deutschlands (DFD)“ der Akademie der Wissenschaften und der Literatur Mainz hervor, bei der Telefonbücher aus dem Jahr 2005 automatisiert ausgewertet wurden (ebd.). Diese Erhebung zeigt, dass es bei Namen ein Homonym-Problem gibt, da Namen keine eindeutig identifizierenden Merkmale eines Menschen sind. Diese Homonyme müssen also mithilfe verschiedener Methoden aufgelöst werden, die in Kapitel 4 dargestellt werden.