Skip to main content
Über uns

Term Frequency Inverse Document Frequency (TF-IDF)

TL;DR

TF-IDF, kurz für Term Frequency Inverse Document Frequency, ist eine einfache numerische Statistik, die dazu dient, die Relevanz eines Textes in Bezug auf die Begriffe einer Suchanfrage zu bestimmen. Obwohl es ein grundlegendes Maß für die Relevanz gibt, ist es nicht die Art und Weise, wie moderne Suchmaschinen heute arbeiten.

Was ist TF-IDF?

TF-IDF, kurz für Term Frequency Inverse Document Frequency, ist eine numerische Statistik, die eine der Möglichkeiten beschreibt, mit denen eine Suchmaschine feststellen kann, ob ein Text in Bezug auf die in einer Suchanfrage verwendeten Begriffe relevant ist. TF-IDF ist ein grundlegendes mathematisches Modell. Moderne Suchmaschinen verwenden neben der einfachen Wortzählung auch fortgeschrittenere Versionen von TF-IDF sowie neuronales Matching.

Wie funktioniert TF-IDF?

Wie der Name schon sagt, besteht die Funktionsweise dieser Statistik aus zwei Teilen, um eine Relevanznote zu erhalten.

Der erste Teil ist die "Term-Frequenz"-Punktzahl. Dieser Teil des Algorithmus geht davon aus, dass je mehr ein Begriff in einem Text verwendet wird, desto wichtiger ist er für die Bestimmung, worum es im Text geht. Durch die Anwendung nur dieser Logik auf Suchmaschinen, wenn ein Benutzer nach etwas wie "Website Analytics" online sucht, sollte das erste Ergebnis die Seite mit der höchsten Häufigkeit der Wörter "Website" und "Analytics" sein.

Da aber das Wort "Website" für so viele Themen im Internet recht häufig vorkommt, wird dies im zweiten Teil der TF-IDF-Berechnung ebenfalls berücksichtigt. Die "inverse Belegfrequenz" vermindert das Gewicht der Begriffe, die in mehreren zu berücksichtigenden Texten sehr häufig vorkommen. In unserem Beispiel wird der Algorithmus also bei der Berechnung von TF-IDF dem Begriff "Analytik" mehr Gewicht geben. Im Allgemeinen wird dieser Teil des Algorithmus den spezifischeren Begriffen in der Abfrage mehr Gewicht geben.

Natürlich verwenden Suchmaschinen, wie oben erwähnt, unendlich komplexere Modelle zur Bestimmung der Relevanz. Nach heutigen Standards, mit Suchmaschinen, die die Semantik verstehen, kann eine Seite in Bezug auf eine Suchanfrage sehr relevant sein, sogar mit 0% Häufigkeit des Begriffs. Dies kann passieren, wenn ein Synonym verwendet wird, oder wenn die Suchmaschinen eine Reihe von Wörtern entdecken, die in Texten über diesen Begriff häufig verwendet werden, auch wenn der Begriff selbst nicht vorhanden ist. Deshalb ist die einfache TF-IDF nicht mehr relevant.