टर्म फ़्रीक्वेंसी उलटा दस्तावेज़ फ़्रिक्वेंसी (TF-IDF)

टीएल; डीआर
TF-IDF, टर्म फ़्रीक्वेंसी इनवर्स दस्तावेज़ फ़्रिक्वेंसी के लिए संक्षिप्त, एक साधारण संख्यात्मक आँकड़ा है जिसका उपयोग किसी खोज क्वेरी में शब्दों के संबंध में किसी टेक्स्ट की प्रासंगिकताको निर्धारित करने के लिए किया जाता है। हालांकि यह प्रासंगिकता का एक बुनियादी माप प्रदान करता है, यह वह तरीका नहीं है जिस तरह से आधुनिक खोज इंजन आज काम करते हैं।
टीएफ-आईडीएफ क्या है?
TF-IDF, टर्म फ़्रीक्वेंसी इनवर्स डॉक्यूमेंट फ़्रिक्वेंसी के लिए संक्षिप्त, एक संख्यात्मक आँकड़ा है, जिसका उपयोग खोज इंजनद्वारा यह निर्धारित करने के तरीकों में से एक का वर्णन करने के लिए किया जाता है कि क्या कोई टेक्स्ट खोज क्वेरी में उपयोग किए गए शब्दों के संबंध में प्रासंगिक है। TF-IDF एक बुनियादी गणितीय मॉडल है। आधुनिक खोज इंजन सरल शब्द गणना के अलावा, TF-IDF के अधिक उन्नत संस्करणों के साथ-साथ तंत्रिका मिलान का उपयोग करते हैं।
टीएफ-आईडीएफ कैसे काम करता है?
जैसा कि नाम से पता चलता है, प्रासंगिकता स्कोर प्रदान करने के लिए, यह आँकड़ा जिस तरह से काम करता है, उसके दो भाग हैं।
पहला भाग "टर्म फ़्रीक्वेंसी" स्कोरहै। एल्गोरिथम का यह हिस्सा मानता है कि किसी पाठ में जितना अधिक शब्द का उपयोग किया जाता है, उतना ही महत्वपूर्ण यह निर्धारित करने में होता है कि पाठ किस बारे में है। केवल इस तर्क को खोज इंजनों पर लागू करके, जब कोई उपयोगकर्ता "वेबसाइट एनालिटिक्स" जैसी किसी चीज़ को ऑनलाइन खोजता है, तो पहला परिणाम "वेबसाइट" और "एनालिटिक्स" शब्दों की उच्चतम आवृत्ति वाला पृष्ठ होना चाहिए।
लेकिन चूंकि इंटरनेट पर इतने सारे विषयों के लिए "वेबसाइट" शब्द काफी सामान्य है, इसलिए टीएफ-आईडीएफ गणना का दूसरा भाग भी इसे ध्यान में रखेगा। "उलटा दस्तावेज़ आवृत्ति"उन शब्दों के वजन को कम कर देता है जिन्हें ध्यान में रखे जाने वाले कई ग्रंथों में बहुत बार होता है। इसलिए, हमारे उदाहरण में, एल्गोरिथम TF-IDF की गणना करते समय "एनालिटिक्स" शब्द को अधिक महत्व देगा। सामान्य तौर पर, एल्गोरिथम का यह भाग क्वेरी में अधिक विशिष्ट शब्दों को अधिक महत्वदेगा।
बेशक, जैसा कि ऊपर कहा गया है, खोज इंजन प्रासंगिकता निर्धारित करने के लिए असीम रूप से अधिक जटिल मॉडल का उपयोग करते हैं। आज के मानकों के अनुसार, शब्दार्थ को समझने वाले खोज इंजन के साथ, एक पृष्ठ खोज क्वेरी के संबंध में अत्यधिक प्रासंगिक हो सकता है, यहां तक कि शब्द की 0% आवृत्ति के साथ भी। यह तब हो सकता है जब एक समानार्थी शब्द का उपयोग किया जाता है, या यदि खोज इंजन शब्दों की एक श्रृंखला का पता लगाता है जो आमतौर पर उस शब्द के बारे में ग्रंथों में उपयोग किया जाता है, भले ही यह शब्द स्वयं अनुपस्थित हो। यही कारण है कि साधारण TF-IDF अब प्रासंगिक नहीं है।