Skip to main content

תדר תדירות מסמך הפוך (TF-IDF)

TL;DR

TF-IDF, קיצור של Term Frequency Inverse Document Frequency, הוא נתון מספרי פשוט המשמש לקביעת הרלוונטיות של טקסט ביחס למונחים בשאילתת חיפוש. למרות שהוא מספק מדד בסיסי של רלוונטיות, זה לא הדרך שבה מנועי החיפוש המודרניים עובדים היום.

מה זה TF-IDF?

TF-IDF, קיצור של Term Frequency Inverse Document Frequency, הוא נתון מספרי, המשמש לתיאור אחת הדרכים שבהן מנוע חיפושיכול לקבוע אם טקסט רלוונטי ביחס למונחים המשמשים בשאילתת חיפוש. TF-IDF הוא מודל מתמטי בסיסי. מנועי חיפוש מודרניים משתמשים בגרסאות מתקדמות יותר של TF-IDF, כמו גם התאמה עצבית, בנוסף לספירת מילים פשוטה.

איך עובד TF-IDF?

כפי שהשם מרמז, ישנם שני חלקים לאופן שבו הנתון הזה עובד, על מנת לספק ציון רלוונטיות.

החלק הראשון הוא ציון "תדירות המונחים". חלק זה של האלגוריתם מניח שככל שהמונח משמש יותר בטקסט, כך הוא חשוב יותר בקביעה על מה הטקסט. על ידי יישום ההיגיון הזה בלבד על מנועי החיפוש, כאשר משתמש מחפש משהו כמו "ניתוח אתרים" באינטרנט, התוצאה הראשונה צריכה להיות הדף עם התדירות הגבוהה ביותר של המילים "אתר" ו"ניתוח".

אבל מכיוון שהמילה "אתר" נפוצה למדי עבור כל כך הרבה נושאים באינטרנט, החלק השני של חישוב TF-IDF גם ייקח זאת בחשבון. "תדירות המסמכים ההפוכה"מפחיתה את משקלם של אותם מונחים ששכיחים מאוד במספר טקסטים שנלקחים בחשבון. אז, בדוגמה שלנו, האלגוריתם ייתן משקל רב יותר למונח "אנליטיקה" בעת חישוב TF-IDF. באופן כללי, חלק זה של האלגוריתם ייתן משקל רב יותר למונחים הספציפיים יותר בשאילתה.

כמובן, כפי שצוין לעיל, מנועי החיפוש משתמשים במודלים מורכבים לאין שיעור כדי לקבוע רלוונטיות. לפי הסטנדרטים של היום, עם מנועי חיפוש שמבינים סמנטיקה, דף יכול להיות מאוד רלוונטי ביחס לשאילתת חיפוש, אפילו בתדירות של 0% מהמונח. זה יכול לקרות אם נעשה שימוש במילה נרדפת, או אם מנועי החיפוש מזהים מגוון של מילים המשמשות בדרך כלל בטקסטים על מונח זה, גם אם המונח עצמו נעדר. זו הסיבה ש-TF-IDF הפשוט אינו רלוונטי יותר.