Skip to main content

Fréquence des termes dans les documents inversés (TF-IDF)

TL;DR

TF-IDF, abréviation de Term Frequency Inverse Document Frequency, est une simple statistique numérique utilisée pour déterminer la pertinence d'un texte par rapport aux termes d'une requête de recherche. Bien qu'elle fournisse une mesure de base de la pertinence, ce n'est pas la façon dont les moteurs de recherche modernes fonctionnent aujourd'hui.

 

Qu'est-ce que le TF-IDF ?

TF-IDF, abréviation de Term Frequency Inverse Document Frequency, est une statistique numérique utilisée pour décrire l'une des façons dont un moteur de recherche peut déterminer si un texte est pertinent par rapport aux termes utilisés dans une requête de recherche. TF-IDF est un modèle mathématique de base. Les moteurs de recherche modernes utilisent des versions plus avancées de TF-IDF, ainsi que la correspondance neuronale, en plus du simple comptage de mots.

Comment fonctionne le TF-IDF ?

Comme son nom l'indique, cette statistique fonctionne en deux parties, afin de fournir un score de pertinence.

La première partie est le score de "fréquence des termes". Cette partie de l'algorithme part du principe que plus un terme est utilisé dans un texte, plus il est important pour déterminer le sujet du texte. En appliquant uniquement cette logique aux moteurs de recherche, lorsqu'un utilisateur recherche quelque chose comme "analyse de site Web" en ligne, le premier résultat devrait être la page présentant la fréquence la plus élevée des mots "site Web" et "analyse".

Mais comme le mot "site web" est assez courant pour de nombreux sujets sur l'internet, la deuxième partie du calcul TF-IDF en tiendra également compte. La "fréquence inverse des documents" diminue le poids des termes qui sont très fréquents dans plusieurs textes pris en considération. Ainsi, dans notre exemple, l'algorithme donnera plus de poids au terme "analytics" lors du calcul du TF-IDF. En général, cette partie de l'algorithme donnera plus de poids aux termes les plus spécifiques de la requête.

Bien sûr, comme indiqué ci-dessus, les moteurs de recherche utilisent des modèles infiniment plus complexes pour déterminer la pertinence. Selon les normes actuelles, avec des moteurs de recherche qui comprennent la sémantique, une page peut être très pertinente par rapport à une requête de recherche, même avec une fréquence de 0 % du terme. Cela peut se produire si un synonyme est utilisé, ou si les moteurs de recherche détectent une série de mots couramment utilisés dans les textes relatifs à ce terme, même si le terme lui-même est absent. C'est pourquoi le simple TF-IDF n'est plus pertinent.