Skip to main content

Term Frequency Inverse Document Frequency (TF-IDF)

TL;DR

TF-IDF, kort för Term Frequency Inverse Document Frequency, är en enkel numerisk statistik som används för att bestämma relevansen av en text i förhållande till termerna i en sökfråga. Även om det ger ett grundläggande mått på relevans, är det inte så som moderna sökmotorer fungerar idag.

Vad är TF-IDF?

TF-IDF, kort för Term Frequency Inverse Document Frequency, är en numerisk statistik, som används för att beskriva ett av sätten som en sökmotorkan avgöra om en text är relevant i förhållande till termerna som används i en sökfråga. TF-IDF är en grundläggande matematisk modell. Moderna sökmotorer använder mer avancerade versioner av TF-IDF, såväl som neural matchning, förutom enkel ordräkning.

Hur fungerar TF-IDF?

Som namnet antyder finns det två delar av hur denna statistik fungerar, för att ge ett relevanspoäng.

Den första delen är poängen "term frekvens". Denna del av algoritmen antar att ju mer en term används i en text, desto viktigare är den för att avgöra vad texten handlar om. Genom att endast tillämpa denna logik på sökmotorer, när en användare söker efter något som "webbplatsanalys" online, bör det första resultatet vara sidan med den högsta frekvensen av orden "webbplats" och "analys".

Men eftersom ordet "webbplats" är ganska vanligt för så många ämnen på internet, kommer den andra delen av TF-IDF-kalkylen också att ta hänsyn till detta. Den "omvända dokumentfrekvensen"minskar vikten av de termer som är mycket vanliga i flera texter som tas i beaktande. Så i vårt exempel kommer algoritmen att ge mer vikt åt termen "analytics" vid beräkning av TF-IDF. I allmänhet kommer denna del av algoritmen att ge mer vikt åt de mer specifika termerna i frågan.

Naturligtvis, som nämnts ovan, använder sökmotorer oändligt mycket mer komplexa modeller för att bestämma relevans. Med dagens standarder, med sökmotorer som förstår semantik, kan en sida vara mycket relevant i förhållande till en sökfråga, även med 0 % frekvens av termen. Detta kan hända om en synonym används, eller om sökmotorerna upptäcker en rad ord som ofta används i texter om den termen, även om själva termen saknas. Det är därför enkel TF-IDF inte är relevant längre.