Skip to main content

Term Frequency Inverse Document Frequency (TF-IDF) / Termo Frequência Inversa Frequência do Documento (TF-IDF)

TL;DR

TF-IDF, abreviatura para Term Frequency Inverse Document Frequency, é uma estatística numérica simples usada para determinar a relevância de um texto em relação aos termos usados em uma consulta de pesquisa. Embora ela dê uma medida básica de relevância, não é a forma como os motores de busca modernos funcionam hoje em dia.

O que é a TF-IDF?

TF-IDF, abreviatura para Term Frequency Inverse Document Frequency, é uma estatística numérica, que é usada para descrever uma das maneiras que um mecanismo de busca pode determinar se um texto é relevante em relação aos termos usados em uma consulta de busca. TF-IDF é um modelo matemático básico. Os motores de busca modernos usam versões mais avançadas de TF-IDF, bem como a correspondência neural, além da simples contagem de palavras.

Como funciona a TF-IDF?

Como o nome sugere, há duas partes na forma como esta estatística funciona, de modo a fornecer uma pontuação de relevância.

A primeira parte é a pontuação do termo "frequência". Esta parte do algoritmo assume que quanto mais um termo é usado em um texto, mais importante ele é na determinação do que se trata o texto. Aplicando apenas esta lógica aos motores de busca, quando um utilizador procura algo como "análise de website" online, o primeiro resultado deve ser a página com a maior frequência das palavras "website" e "analítica".

Mas como a palavra "website" é bastante comum para tantos tópicos na internet, a segunda parte do cálculo da TF-IDF também levará isso em conta. A "frequência inversa de documentos" diminui o peso dos termos que são muito frequentes em vários textos a serem tidos em conta. Assim, no nosso exemplo, o algoritmo dará mais peso ao termo "analítico" ao calcular o TF-IDF. Em geral, esta parte do algoritmo dará mais peso aos termos mais específicos na consulta.

Claro que, como dito acima, os motores de busca usam modelos infinitamente mais complexos para determinar a relevância. Pelos padrões actuais, com motores de busca que compreendem a semântica, uma página pode ser altamente relevante em relação a uma consulta de pesquisa, mesmo com 0% de frequência do termo. Isto pode acontecer se for utilizado um sinônimo, ou se os motores de busca detectarem uma gama de palavras que são normalmente utilizadas em textos sobre esse termo, mesmo que o próprio termo esteja ausente. É por isso que o simples TF-IDF já não é relevante.