Skip to main content

Term Frequency Inverse Document Frequency (TF-IDF)

TL;DR

TF-IDF, kort for Term Frequency Inverse Document Frequency, er en simpel numerisk statistik, der bruges til at bestemme relevansen af en tekst i forhold til termerne i en søgeforespørgsel. Selvom det giver et grundlæggende mål for relevans, er det ikke den måde, moderne søgemaskiner fungerer på i dag.

Hvad er TF-IDF?

TF-IDF, kort for Term Frequency Inverse Document Frequency, er en numerisk statistik, som bruges til at beskrive en af de måder, en søgemaskinekan afgøre, om en tekst er relevant i forhold til de termer, der bruges i en søgeforespørgsel. TF-IDF er en grundlæggende matematisk model. Moderne søgemaskiner bruger mere avancerede versioner af TF-IDF, såvel som neural matchning, foruden simpel ordtælling.

Hvordan fungerer TF-IDF?

Som navnet antyder, er der to dele af den måde, denne statistik fungerer på, for at give en relevansscore.

Den første del er scoren "term frekvens". Denne del af algoritmen antager, at jo mere et udtryk bruges i en tekst, jo vigtigere er det for at bestemme, hvad teksten handler om. Ved kun at anvende denne logik på søgemaskiner, når en bruger søger efter noget som "website analytics" online, bør det første resultat være den side med den højeste frekvens af ordene "website" og "analytics".

Men da ordet "hjemmeside" er ret almindeligt for så mange emner på internettet, vil anden del af TF-IDF-beregningen også tage højde for dette. Den "omvendte dokumentfrekvens"mindsker vægten af de udtryk, der er meget hyppige i flere tekster, der tages i betragtning. Så i vores eksempel vil algoritmen give mere vægt til udtrykket "analytics" ved beregning af TF-IDF. Generelt vil denne del af algoritmen give mere vægt til de mere specifikke termer i forespørgslen.

Naturligvis, som nævnt ovenfor, bruger søgemaskiner uendeligt mere komplekse modeller til at bestemme relevans. Med nutidens standarder, med søgemaskiner, der forstår semantik, kan en side være yderst relevant i forhold til en søgeforespørgsel, selv med 0% hyppighed af termen. Dette kan ske, hvis der bruges et synonym, eller hvis søgemaskinerne registrerer en række ord, som er almindeligt brugt i tekster om det pågældende udtryk, selvom selve udtrykket er fraværende. Derfor er simpel TF-IDF ikke længere relevant.