Skip to main content

Частота термінів Інверсна частота документів (TF-IDF)

TL; DR

TF-IDF, скорочення від Term Frequency Inverse Document Frequency, є простою числовою статистикою, яка використовується для визначення релевантності тексту щодо термінів у пошуковому запиті. Хоча це є основним показником релевантності, це не так, як сучасні пошукові системи працюють сьогодні.

Що таке TF-IDF?

TF-IDF, скорочення від Term Frequency Inverse Document Frequency, є числовою статистикою, яка використовується для опису одного із способів, яким пошукова системаможе визначити, чи є текст релевантним щодо термінів, які використовуються в пошуковому запиті. TF-IDF є базовою математичною моделлю. Сучасні пошукові системи використовують більш просунуті версії TF-IDF, а також нейронну відповідність, на додаток до простого підрахунку слів.

Як працює TF-IDF?

Як випливає з назви, ця статистика складається з двох частин, щоб забезпечити оцінку релевантності.

Перша частина – це оцінка частоти термінів. Ця частина алгоритму передбачає, що чим більше термін використовується в тексті, тим важливіше він для визначення того, про що йдеться в тексті. Застосовуючи лише цю логіку до пошукових систем, коли користувач шукає в Інтернеті щось на кшталт «аналітика веб-сайту», першим результатом має бути сторінка з найбільшою частотою слів «веб-сайт» та «аналітика».

Але оскільки слово «веб-сайт» є досить поширеним для багатьох тем в Інтернеті, у другій частині розрахунку TF-IDF це також буде враховано. «Зворотна частота документа»зменшує вагу тих термінів, які дуже часто зустрічаються в кількох текстах, які беруться до уваги. Отже, в нашому прикладі алгоритм буде надавати більшу вагу терміну «аналітика» при розрахунку TF-IDF. Загалом, ця частина алгоритму надаватиме більшу вагу більш конкретним термінам у запиті.

Звичайно, як зазначено вище, пошукові системи використовують нескінченно складніші моделі для визначення релевантності. За сучасними стандартами, з пошуковими системами, які розуміють семантику, сторінка може бути дуже релевантною по відношенню до пошукового запиту, навіть при 0% частоті терміна. Це може статися, якщо використовується синонім або пошукові системи виявляють ряд слів, які зазвичай використовуються в текстах про цей термін, навіть якщо сам термін відсутній. Ось чому простий TF-IDF більше не актуальний.