Skip to main content

Частота терминов, обратная частоте документов (TF-IDF)

TL;DR

TF-IDF, сокращение от Term Frequency Inverse Document Frequency, - это простая числовая статистика, используемая для определения релевантности текста по отношению к терминам в поисковом запросе. Хотя она и обеспечивает базовую меру релевантности, это не то, как работают современные поисковые системы.

 

Что такое TF-IDF?

TF-IDF, сокращение от Term Frequency Inverse Document Frequency, - это числовая статистика, которая используется для описания одного из способов определения поисковой системой релевантности текста по отношению к терминам, используемым в поисковом запросе. TF-IDF - это базовая математическая модель. Современные поисковые системы используют более продвинутые версии TF-IDF, а также нейронное соответствие, в дополнение к простому подсчету слов.

Как работает TF-IDF?

Как следует из названия, есть две части в том, как работает эта статистика, чтобы обеспечить оценку релевантности.

Первая часть - это оценка "частоты терминов". Эта часть алгоритма предполагает, что чем чаще термин используется в тексте, тем важнее он для определения того, о чем этот текст. Если применить эту логику только к поисковым системам, то когда пользователь ищет в Интернете что-то вроде "аналитика сайта", первым результатом должна быть страница с наибольшей частотой употребления слов "сайт" и "аналитика".

Но поскольку слово "веб-сайт" является довольно распространенным для многих тем в Интернете, вторая часть расчета TF-IDF также будет учитывать это. Обратная частота документа" уменьшает вес тех терминов, которые очень часто встречаются в нескольких учитываемых текстах. Так, в нашем примере при расчете TF-IDF алгоритм придаст больший вес термину "аналитика". В целом, эта часть алгоритма будет придавать больший вес более конкретным терминам в запросе.

Конечно, как было сказано выше, поисковые системы используют бесконечно более сложные модели для определения релевантности. По сегодняшним стандартам, с поисковыми системами, понимающими семантику, страница может быть высоко релевантной по отношению к поисковому запросу даже при 0% частотности термина. Это может произойти, если используется синоним или если поисковые системы обнаруживают ряд слов, которые часто используются в текстах о данном термине, даже если сам термин отсутствует. Вот почему простой TF-IDF больше не актуален.