Skip to main content

기간 빈도 역 문서 빈도(TF-IDF)

TL;DR

TF-IDF는 Term Frequency Inverse Document Frequency의 약자로 검색 쿼리의 용어와 관련하여 텍스트의 관련성을 결정하는 데 사용되는 간단한 수치 통계입니다. 그것이 관련성의 기본적인 척도를 제공하기는 하지만 오늘날 현대 검색 엔진이 작동하는 방식은 아닙니다.

TF-IDF란?

TF-IDF는 Term Frequency Inverse Document Frequency의 약자로, 검색 엔진이 검색 쿼리에 사용된 용어와 관련하여 텍스트가 관련이 있는지 여부를 결정할 수 있는 방법 중 하나를 설명하는 데 사용되는 수치 통계입니다. TF-IDF는 기본 수학적 모델입니다. 최신 검색 엔진은 단순한 단어 수 계산 외에도 신경 매칭뿐만 아니라 고급 버전의 TF-IDF를 사용합니다.

TF-IDF는 어떻게 작동합니까?

이름에서 알 수 있듯이 관련성 점수를 제공하기 위해 이 통계가 작동하는 방식에는 두 부분이 있습니다.

첫 번째 부분은 "용어 빈도" 점수입니다. 알고리즘의 이 부분은 텍스트에서 용어가 더 많이 사용될수록 텍스트의 내용을 결정하는 데 더 중요하다고 가정합니다. 이 논리를 검색 엔진에 적용하면 사용자가 온라인에서 "웹사이트 분석"과 같은 것을 검색할 때 "웹사이트"와 "분석"이라는 단어의 빈도가 가장 높은 페이지가 첫 번째 결과가 되어야 합니다.

그러나 "웹사이트"라는 단어는 인터넷의 많은 주제에 대해 상당히 일반적이므로 TF-IDF 계산의 두 번째 부분에서도 이를 고려합니다. "역 문서 빈도"는 고려 중인 여러 텍스트에서 매우 자주 사용되는 용어의 가중치를 줄입니다. 따라서 이 예에서 알고리즘은 TF-IDF를 계산할 때 "분석"이라는 용어에 더 많은 가중치를 부여합니다. 일반적으로 알고리즘의 이 부분은 쿼리의 보다 구체적인 용어에 더 많은 가중치를부여합니다.

물론 위에서 언급했듯이 검색 엔진은 관련성을 결정하기 위해 훨씬 더 복잡한 모델을 사용합니다. 오늘날의 표준에 따르면 의미 체계를 이해하는 검색 엔진을 사용하면 용어의 빈도가 0%인 경우에도 페이지가 검색 쿼리와 관련하여 높은 관련성이 있을 수 있습니다. 이는 동의어가 사용되거나 검색 엔진이 해당 용어에 대한 텍스트에서 일반적으로 사용되는 단어 범위를 감지하는 경우 발생할 수 있습니다. 해당 단어 자체가 없는 경우에도 마찬가지입니다. 이것이 단순한 TF-IDF가 더 이상 관련이 없는 이유입니다.