Skip to main content

Terim Frekansı Ters Belge Frekansı (TF-IDF)

TL; DR

Terim Frekansı Ters Belge Sıklığı'nın kısaltması olan TF-IDF,bir arama sorgusundaki terimlerle ilgili olarak bir metnin alaka düzeyinibelirlemek için kullanılan basit bir sayısal istatistiktir. Temel bir alaka düzeyi sağlarken, günümüzde modern arama motorlarının çalışma şekli bu değildir.

TF-IDF nedir?

Terim Frekansı Ters Belge Sıklığı'nın kısaltması olan TF-IDF, bir arama motorununbir metnin bir arama sorgusunda kullanılan terimlerle ilgili olup olmadığını belirleme yollarından birini tanımlamak için kullanılan sayısal bir istatistiktir. TF-IDF temel bir matematiksel modeldir. Modern arama motorları, basit kelime saymanın yanı sıra nöral eşlemenin yanı sıra TF-IDF'nin daha gelişmiş sürümlerini kullanır.

TF-IDF nasıl çalışır?

Adından da anlaşılacağı gibi, bir alaka düzeyi puanı sağlamak için bu istatistiğin çalışma şeklinin iki bölümü vardır.

İlk kısım “terim sıklığı” puanıdır. Algoritmanın bu kısmı, bir metinde bir terim ne kadar çok kullanılırsa, metnin ne hakkında olduğunu belirlemede o kadar önemli olduğunu varsayar. Arama motorlarına sadece bu mantığı uygulayarak, bir kullanıcı çevrimiçi olarak “web sitesi analitiği” gibi bir şey arattığında, ilk sonuç “web sitesi” ve “analitik” kelimelerinin en sık olduğu sayfa olmalıdır.

Ancak “web sitesi” kelimesi internetteki pek çok konu için oldukça yaygın olduğundan, TF-IDF hesaplamasının ikinci kısmı da bunu dikkate alacaktır. “Ters belge sıklığı”, dikkate alınan birçok metinde çok sık kullanılan terimlerin ağırlığını azaltır. Bu nedenle, örneğimizde algoritma, TF-IDF'yi hesaplarken "analitik" terimine daha fazla ağırlık verecektir. Genel olarak, algoritmanın bu kısmı , sorgudaki daha spesifik terimlere daha fazla ağırlıkverecektir.

Elbette, yukarıda belirtildiği gibi, arama motorları alaka düzeyini belirlemek için sonsuz derecede daha karmaşık modeller kullanır. Günümüz standartlarına göre, semantiği anlayan arama motorlarıyla, bir sayfa, terimin %0 sıklığında bile bir arama sorgusu ile oldukça alakalı olabilir. Bu, bir eşanlamlı kullanılırsa veya arama motorları, terimin kendisi olmasa bile, o terimle ilgili metinlerde yaygın olarak kullanılan bir dizi kelime algılarsa olabilir. Bu nedenle basit TF-IDF artık geçerli değil.