Skip to main content

Term Frequency Inverse Document Frequency (TF-IDF)

TL;DR

TF-IDF, forkortelse for Term Frequency Inverse Document Frequency, er en enkel numerisk statistikk som brukes til å bestemme relevansen til en tekst i forhold til termene i et søk. Selv om det gir et grunnleggende mål på relevans, er det ikke slik moderne søkemotorer fungerer i dag.

Hva er TF-IDF?

TF-IDF, forkortelse for Term Frequency Inverse Document Frequency, er en numerisk statistikk, som brukes til å beskrive en av måtene en søkemotorkan finne ut om en tekst er relevant i forhold til begrepene som brukes i et søk. TF-IDF er en grunnleggende matematisk modell. Moderne søkemotorer bruker mer avanserte versjoner av TF-IDF, samt nevrale matching, i tillegg til enkel ordtelling.

Hvordan fungerer TF-IDF?

Som navnet antyder, er det to deler av måten denne statistikken fungerer på, for å gi en relevansscore.

Den første delen er poengsummen "term frekvens". Denne delen av algoritmen forutsetter at jo mer et begrep brukes i en tekst, desto viktigere er det for å bestemme hva teksten handler om. Ved å bruke bare denne logikken på søkemotorer, når en bruker søker etter noe som "nettstedsanalyse" på nettet, bør det første resultatet være siden med den høyeste frekvensen av ordene "nettsted" og "analyse".

Men siden ordet "nettsted" er ganske vanlig for så mange emner på internett, vil den andre delen av TF-IDF-beregningen også ta hensyn til dette. Den "inverse dokumentfrekvensen"reduserer vekten av de termene som er svært hyppige i flere tekster som tas i betraktning. Så i vårt eksempel vil algoritmen gi mer vekt til begrepet "analytics" ved beregning av TF-IDF. Generelt vil denne delen av algoritmen gi mer vekt til de mer spesifikke termene i spørringen.

Selvfølgelig, som nevnt ovenfor, bruker søkemotorer uendelig mye mer komplekse modeller for å bestemme relevans. Etter dagens standarder, med søkemotorer som forstår semantikk, kan en side være svært relevant i forhold til et søk, selv med 0 % frekvens av begrepet. Dette kan skje hvis et synonym brukes, eller hvis søkemotorene oppdager en rekke ord som ofte brukes i tekster om det begrepet, selv om selve begrepet er fraværende. Dette er grunnen til at enkel TF-IDF ikke er aktuelt lenger.