Skip to main content

用語頻度逆文書頻度(TF-IDF)

TL; DR

TF-IDFは、Term Frequency Inverse Document Frequencyの略で、検索クエリ内の用語に関連するテキストの関連性を判断するために使用される単純な数値統計です。それは関連性の基本的な尺度を提供しますが、それは現代の検索エンジンが今日機能する方法ではありません。

TF-IDFとは何ですか?

TF-IDF(Term Frequency Inverse Document Frequencyの略)は数値統計であり、検索エンジンが検索クエリで使用される用語に関連してテキストが関連しているかどうかを判断する方法の1つを説明するために使用されます。 TF-IDFは基本的な数学モデルです。最新の検索エンジンは、単純な単語カウントに加えて、TF-IDFのより高度なバージョンとニューラルマッチングを使用しています。

TF-IDFはどのように機能しますか?

名前が示すように、関連性スコアを提供するために、この統計が機能する方法には2つの部分があります。

最初の部分は「期間頻度」スコアです。アルゴリズムのこの部分は、テキストで使用される用語が多いほど、テキストの内容を決定する上で重要であると想定しています。このロジックのみを検索エンジンに適用することにより、ユーザーがオンラインで「ウェブサイト分析」などを検索すると、最初の結果は「ウェブサイト」と「分析」という単語の頻度が最も高いページになります。

しかし、「ウェブサイト」という言葉はインターネット上の非常に多くのトピックでかなり一般的であるため、TF-IDF計算の2番目の部分でもこれが考慮されます。 「逆ドキュメント頻度」は、考慮されているいくつかのテキストで非常に頻繁に使用される用語の重みを減らします。したがって、この例では、アルゴリズムはTF-IDFを計算するときに「分析」という用語により多くの重みを与えます。一般に、アルゴリズムのこの部分は、クエリ内のより具体的な用語により大きな重みを与えます。

もちろん、上記のように、検索エンジンは関連性を判断するために無限に複雑なモデルを使用します。今日の標準では、セマンティクスを理解する検索エンジンを使用すると、用語の頻度が0%であっても、ページは検索クエリとの関連性が高くなります。これは、同義語が使用されている場合、または用語自体が存在しない場合でも、検索エンジンがその用語に関するテキストで一般的に使用されている単語の範囲を検出した場合に発生する可能性があります。これが、単純なTF-IDFがもはや関係しない理由です。