Visitor Analytics
Skip to main content

Frequenza dei termini e frequenza inversa dei documenti (TF-IDF)

TL;DR

TF-IDF, abbreviazione di Term Frequency Inverse Document Frequency, è una semplice statistica numerica usata per determinare la rilevanza di un testo in relazione ai termini di una query di ricerca. Anche se fornisce una misura di base della rilevanza, non è il modo in cui i moderni motori di ricerca lavorano oggi.

 

Cos'è TF-IDF?

TF-IDF, abbreviazione di Term Frequency Inverse Document Frequency, è una statistica numerica usata per descrivere uno dei modi in cui un motore di ricerca può determinare se un testo è rilevante in relazione ai termini usati in una query di ricerca. TF-IDF è un modello matematico di base. I motori di ricerca moderni usano versioni più avanzate di TF-IDF, così come la corrispondenza neurale, oltre al semplice conteggio delle parole.

Come funziona TF-IDF?

Come suggerisce il nome, ci sono due parti nel modo in cui funziona questa statistica, al fine di fornire un punteggio di rilevanza.

La prima parte è il punteggio di "frequenza dei termini". Questa parte dell'algoritmo presuppone che più un termine è usato in un testo, più è importante per determinare di cosa tratta il testo. Applicando solo questa logica ai motori di ricerca, quando un utente cerca qualcosa come "website analytics" online, il primo risultato dovrebbe essere la pagina con la più alta frequenza delle parole "website" e "analytics".

Ma poiché la parola "sito web" è abbastanza comune per così tanti argomenti su Internet, la seconda parte del calcolo TF-IDF terrà conto anche di questo. La "frequenza inversa del documento" diminuisce il peso di quei termini che sono molto frequenti in diversi testi presi in considerazione. Così, nel nostro esempio, l'algoritmo darà più peso al termine "analytics" nel calcolo TF-IDF. In generale, questa parte dell'algoritmo darà più peso ai termini più specifici nella query.

Naturalmente, come detto sopra, i motori di ricerca usano modelli infinitamente più complessi per determinare la pertinenza. Secondo gli standard odierni, con i motori di ricerca che comprendono la semantica, una pagina può essere altamente rilevante in relazione a una query di ricerca, anche con 0% di frequenza del termine. Questo può accadere se viene usato un sinonimo, o se i motori di ricerca rilevano una serie di parole che sono comunemente usate nei testi su quel termine, anche se il termine stesso è assente. Ecco perché il semplice TF-IDF non è più rilevante.