Skip to main content

词频逆文档频率 (TF-IDF)

TL;博士

TF-IDF 是 Term Frequency Inverse Document Frequency 的缩写,是一种简单的数值统计数据,用于确定文本与搜索查询中的术语相关的相关性。虽然它确实提供了相关性的基本衡量标准,但它并不是现代搜索引擎今天的工作方式。

什么是 TF-IDF?

TF-IDF 是 Term Frequency Inverse Document Frequency 的缩写,是一种数值统计量,用于描述搜索引擎确定文本是否与搜索查询中使用的术语相关的一种方式。 TF-IDF 是一个基本的数学模型。现代搜索引擎除了简单的字数统计外,还使用更高级的 TF-IDF 版本以及神经匹配。

TF-IDF 是如何工作的?

顾名思义,该统计数据的工作方式分为两部分,以提供相关性分数。

第一部分是“词频”分数。这部分算法假设一个词在文本中使用的越多,它在确定文本的内容时就越重要。通过仅将此逻辑应用于搜索引擎,当用户在线搜索“网站分析”之类的内容时,第一个结果应该是“网站”和“分析”一词出现频率最高的页面。

但是由于“网站”这个词在互联网上的许多主题中相当普遍,TF-IDF 计算的第二部分也会考虑到这一点。 “逆文档频率”减少了在考虑的几个文本中非常频繁的那些术语的权重。因此,在我们的示例中,算法将在计算 TF-IDF 时赋予“分析”一词更多的权重。一般来说,这部分算法会给查询中更具体的词更多的权重

当然,如上所述,搜索引擎使用无限复杂的模型来确定相关性。按照今天的标准,对于理解语义的搜索引擎,页面可以与搜索查询高度相关,即使该词的频率为 0%。如果使用同义词,或者如果搜索引擎检测到有关该术语的文本中常用的一系列单词,即使该术语本身不存在,也会发生这种情况。这就是为什么简单的 TF-IDF 不再相关的原因。