Skip to main content

Termin Częstotliwość Odwrotna częstotliwość dokumentu (TF-IDF)

TL; DR

TF-IDF, skrót od Termin Frequency Inverse Document Frequency, to prosta statystyka liczbowa używana do określenia trafności tekstu w odniesieniu do terminów w zapytaniu wyszukiwania. Chociaż zapewnia podstawową miarę trafności, nie jest to sposób, w jaki działają obecnie współczesne wyszukiwarki.

Co to jest TF-IDF?

TF-IDF, skrót od Termin Frequency Inverse Document Frequency, to statystyka liczbowa, która jest używana do opisania jednego ze sposobów, w jaki wyszukiwarkamoże określić, czy tekst jest istotny w odniesieniu do terminów użytych w zapytaniu wyszukiwania. TF-IDF to podstawowy model matematyczny. Nowoczesne wyszukiwarki wykorzystują bardziej zaawansowane wersje TF-IDF, a także dopasowanie neuronowe, oprócz prostego liczenia słów.

Jak działa TF-IDF?

Jak sama nazwa wskazuje, sposób działania tej statystyki składa się z dwóch części, aby zapewnić ocenę trafności.

Pierwsza część to ocena „częstotliwości terminu”. Ta część algorytmu zakłada, że im częściej w tekście używa się terminu, tym ważniejsze jest jego określenie, o czym ten tekst dotyczy. Stosując tylko tę logikę do wyszukiwarek, gdy użytkownik szuka czegoś takiego jak „analityka witryny” online, pierwszym wynikiem powinna być strona z największą częstotliwością słów „witryna” i „analityka”.

Ale ponieważ słowo „strona internetowa” jest dość powszechne w przypadku tak wielu tematów w Internecie, druga część obliczeń TF-IDF również weźmie to pod uwagę. „Odwrotna częstotliwość dokumentów”zmniejsza wagę tych terminów, które są bardzo częste w kilku rozważanych tekstach. Tak więc w naszym przykładzie algorytm przypisze większą wagę terminowi „analityka” podczas obliczania TF-IDF. Ogólnie rzecz biorąc, ta część algorytmu będzie nadawała większą wagę bardziej szczegółowym terminom w zapytaniu.

Oczywiście, jak wspomniano powyżej, wyszukiwarki wykorzystują nieskończenie bardziej złożone modele do określania trafności. Według dzisiejszych standardów, dzięki wyszukiwarkom, które rozumieją semantykę, strona może być bardzo trafna w odniesieniu do wyszukiwanego hasła, nawet przy częstotliwości występowania hasła 0%. Może się tak zdarzyć, jeśli użyty zostanie synonim lub jeśli wyszukiwarki wykryją zakres słów, które są powszechnie używane w tekstach dotyczących tego terminu, nawet jeśli sam termin jest nieobecny. Dlatego proste TF-IDF nie mają już znaczenia.