Skip to main content

Frecvența termenului Frecvența inversă a documentului (TF-IDF)

TL;DR

TF-IDF, prescurtare de la Term Frequency Inverse Document Frequency, este o statistică numerică simplă folosită pentru a determina relevanța unui text în raport cu termenii dintr-o interogare de căutare. Deși oferă o măsură de bază a relevanței, nu este modul în care funcționează motoarele de căutare moderne astăzi.

Ce este TF-IDF?

TF-IDF, prescurtare de la Term Frequency Inverse Document Frequency, este o statistică numerică, care este folosită pentru a descrie una dintre modalitățile prin care un motor de căutarepoate determina dacă un text este relevant în raport cu termenii utilizați într-o interogare de căutare. TF-IDF este un model matematic de bază. Motoarele de căutare moderne folosesc versiuni mai avansate ale TF-IDF, precum și potrivirea neuronală, pe lângă simpla numărare a cuvintelor.

Cum funcționează TF-IDF?

După cum sugerează și numele, modul în care funcționează această statistică are două părți, pentru a oferi un scor de relevanță.

Prima parte este scorul „frecvenței pe termen”. Această parte a algoritmului presupune că, cu cât un termen este folosit mai mult într-un text, cu atât este mai important în determinarea despre ce este vorba în text. Aplicând doar această logică motoarelor de căutare, atunci când un utilizator caută ceva de genul „analitica site-ului” online, primul rezultat ar trebui să fie pagina cu cea mai mare frecvență a cuvintelor „site web” și „analitice”.

Dar, deoarece cuvântul „site web” este destul de comun pentru atât de multe subiecte de pe internet, a doua parte a calculului TF-IDF va ține cont și de acest lucru. „Frecvența inversă a documentelor”diminuează ponderea acelor termeni care sunt foarte frecventi în mai multe texte luate în considerare. Deci, în exemplul nostru, algoritmul va acorda mai multă pondere termenului „analitică” atunci când se calculează TF-IDF. În general, această parte a algoritmului va acorda mai multă pondere termenilor mai specifici din interogare.

Desigur, așa cum am menționat mai sus, motoarele de căutare folosesc modele infinit mai complexe pentru a determina relevanța. După standardele actuale, cu motoarele de căutare care înțeleg semantica, o pagină poate fi foarte relevantă în raport cu o interogare de căutare, chiar și cu 0% frecvență a termenului. Acest lucru se poate întâmpla dacă este folosit un sinonim sau dacă motoarele de căutare detectează o serie de cuvinte care sunt utilizate în mod obișnuit în textele despre acel termen, chiar dacă termenul în sine este absent. Acesta este motivul pentru care TF-IDF simplu nu mai este relevant.