Skip to main content

Frekvence termínů inverzní frekvence dokumentů (TF-IDF)

TL;DR

TF-IDF, zkratka pro Term Frequency Inverse Document Frequency, je jednoduchá číselná statistika, která se používá k určení relevance textu ve vztahu k výrazům ve vyhledávacím dotazu. Přestože poskytuje základní měřítko relevance, není to způsob, jakým dnes pracují moderní vyhledávače.

 

Co je TF-IDF?

TF-IDF, zkratka pro Term Frequency Inverse Document Frequency, je číselná statistika, která se používá k popisu jednoho ze způsobů, jak může vyhledávač určit, zda je text relevantní ve vztahu k výrazům použitým ve vyhledávacím dotazu. TF-IDF je základní matematický model. Moderní vyhledávače používají kromě jednoduchého počítání slov také pokročilejší verze TF-IDF a neuronové porovnávání.

Jak TF-IDF funguje?

Jak již název napovídá, tato statistika pracuje na dvou úrovních, aby poskytla skóre relevance.

První částí je skóre "frekvence termínů". Tato část algoritmu předpokládá, že čím častěji je termín v textu použit, tím důležitější je pro určení, o čem text je. Při použití pouze této logiky ve vyhledávačích, když uživatel hledá něco jako "analýza webových stránek" online, prvním výsledkem by měla být stránka s nejvyšší frekvencí slov "webové stránky" a "analýza".

Protože je však slovo "webová stránka" poměrně časté pro mnoho témat na internetu, druhá část výpočtu TF-IDF zohlední i tuto skutečnost. "Inverzní frekvence dokumentů " snižuje váhu těch výrazů, které se velmi často vyskytují ve více zohledňovaných textech. V našem příkladu tedy algoritmus při výpočtu TF-IDF přisoudí větší váhu termínu "analytics". Obecně tato část algoritmu přisoudí větší váhu specifičtějším termínům v dotazu.

Samozřejmě, jak bylo uvedeno výše, vyhledávače používají k určení relevance nekonečně složitější modely. Podle dnešních měřítek vyhledávačů, které rozumí sémantice, může být stránka ve vztahu k vyhledávacímu dotazu vysoce relevantní i při 0% frekvenci daného výrazu. K tomu může dojít, pokud je použito synonymum nebo pokud vyhledávače zjistí řadu slov, která se běžně používají v textech o daném termínu, i když samotný termín chybí. To je důvod, proč prostý TF-IDF již není relevantní.