Datenquellen und Methodik
Natural Language Processing
Die Verarbeitung natürlicher Sprache (Natural Language Processing, kurz: NLP) ist ein Teilbereich der künstlichen Intelligenz. Ziel ist es, Computer in die Lage zu versetzen, menschliche Sprache zu verstehen und zu interpretieren. Dabei können Wörter beispielsweise in einen Zusammenhang gestellt oder anhand einer mathematischen Darstellung interpretiert werden.
FastText
FastText ist ein Modell von Facebook AI Research zur Erstellung von Wortvektoren.
FastText basiert auf dem Word2Vec-Modell und erweitert dies, indem es nicht nur ganze Wörter, sondern auch Subwörter (n-Gramme) berücksichtigt.
Dadurch kann FastText Wörter in kleinere Einheiten zerlegen, was insbesondere für seltene und unbekannte Wörter von Vorteil ist.
Diese Erweiterung macht FastText leistungsfähiger, wenn es darum geht, die semantischen Beziehungen zwischen Wörtern zu erfassen.
Verwendeter Datensatz
Einen bereits "trainierten" Datensatz für die deutsche Sprache stellt fastText zur Verfügung. Mit diesem Datensatz wird die Distanz zwischen Wörtern auf Das-geheime-Wort.de berechnet. Durch eine Lemmatisierung des Wort-Datensatzes wird zusätzlich sichergestellt, dass nur Grundformen bei der Suche nach dem geheimen Wort verwendet werden.