Skip to main content

Termfrequentie Inverse Documentfrequentie (TF-IDF)

TL;DR

TF-IDF, kort voor Term Frequency Inverse Document Frequency, is een eenvoudige numerieke statistiek die gebruikt wordt om de relevantie van een tekst te bepalen in verhouding tot de termen in een zoekopdracht. Hoewel het een basismaatstaf is voor relevantie, is het niet de manier waarop moderne zoekmachines vandaag werken.

 

Wat is TF-IDF?

TF-IDF, kort voor Term Frequency Inverse Document Frequency, is een numerieke statistiek, die wordt gebruikt om één van de manieren te beschrijven waarop een zoekmachine kan bepalen of een tekst relevant is in relatie tot de gebruikte termen in een zoekvraag. TF-IDF is een wiskundig basismodel. Moderne zoekmachines gebruiken meer geavanceerde versies van TF-IDF, evenals neurale matching, naast eenvoudige woordentelling.

Hoe werkt TF-IDF?

Zoals de naam al aangeeft, zijn er twee delen in de manier waarop deze statistiek werkt, om een relevantie score te geven.

Het eerste deel is de "term-frequentie" score. Dit deel van het algoritme gaat ervan uit dat hoe vaker een term in een tekst voorkomt, hoe belangrijker deze is om te bepalen waar de tekst over gaat. Door alleen deze logica toe te passen op zoekmachines, wanneer een gebruiker online zoekt naar iets als "website analytics", zou het eerste resultaat de pagina moeten zijn met de hoogste frequentie van de woorden "website" en "analytics".

Maar omdat het woord "website" voor zoveel onderwerpen op het internet vrij algemeen is, zal het tweede deel van de TF-IDF berekening daar ook rekening mee houden. De "inverse document frequency" vermindert het gewicht van de termen die zeer vaak voorkomen in meerdere teksten die in aanmerking worden genomen. In ons voorbeeld zal het algoritme dus meer gewicht toekennen aan de term "analytics" bij de berekening van de TF-IDF. In het algemeen zal dit deel van het algoritme meer gewicht toekennen aan de meer specifieke termen in de zoekvraag.

Natuurlijk gebruiken zoekmachines, zoals gezegd, oneindig veel complexere modellen om de relevantie te bepalen. Volgens de normen van vandaag, met zoekmachines die semantiek begrijpen, kan een pagina zeer relevant zijn in relatie tot een zoekopdracht, zelfs met 0% frequentie van de term. Dit kan gebeuren als een synoniem wordt gebruikt, of als de zoekmachines een reeks woorden detecteren die vaak worden gebruikt in teksten over die term, zelfs als de term zelf afwezig is. Dit is de reden waarom eenvoudige TF-IDF niet meer relevant is.