Skip to main content

ระยะ ความถี่ ความถี่เอกสารผกผัน (TF-IDF)

TL;DR

TF-IDF ย่อมาจาก Term Frequency Inverse Document Frequencyเป็นสถิติเชิงตัวเลขอย่างง่ายที่ใช้ในการพิจารณา ความเกี่ยวข้องของข้อความที่สัมพันธ์กับคำในคำค้นหาแม้ว่าจะเป็นการวัดความเกี่ยวข้องขั้นพื้นฐาน แต่ก็ไม่ใช่วิธีการทำงานของเสิร์ชเอ็นจิ้นสมัยใหม่ในปัจจุบัน

TF-IDF คืออะไร?

TF-IDF ย่อมาจาก Term Frequency Inverse Document Frequency เป็นสถิติเชิงตัวเลข ซึ่งใช้เพื่ออธิบายวิธีหนึ่งที่ เครื่องมือค้นหาสามารถระบุได้ว่าข้อความมีความเกี่ยวข้องกับคำที่ใช้ในคำค้นหาหรือไม่ TF-IDF เป็นแบบจำลองทางคณิตศาสตร์พื้นฐาน เสิร์ชเอ็นจิ้นสมัยใหม่ใช้ TF-IDF เวอร์ชันขั้นสูงกว่า เช่นเดียวกับการจับคู่ระบบประสาท นอกเหนือไปจากการนับคำอย่างง่าย

TF-IDF ทำงานอย่างไร

ตามที่ชื่อบอก มีสองส่วนในการทำงานของสถิตินี้ เพื่อที่จะให้คะแนนความเกี่ยวข้อง

ส่วนแรกคือ คะแนน "ความถี่ของเทอม"อัลกอริทึมส่วนนี้ถือว่ายิ่งมีการใช้คำศัพท์ในข้อความมากเท่าใด การพิจารณาว่าข้อความนั้นเกี่ยวกับอะไรก็ยิ่งมีความสำคัญมากขึ้นเท่านั้น เมื่อใช้ตรรกะนี้กับเครื่องมือค้นหาเท่านั้น เมื่อผู้ใช้ค้นหาบางอย่าง เช่น "การวิเคราะห์เว็บไซต์" ทางออนไลน์ ผลลัพธ์แรกควรเป็นหน้าเว็บที่มีคำว่า "เว็บไซต์" และ "การวิเคราะห์" บ่อยที่สุด

แต่เนื่องจากคำว่า "เว็บไซต์" เป็นเรื่องปกติธรรมดาสำหรับหัวข้อมากมายบนอินเทอร์เน็ต ส่วนที่สองของการคำนวณ TF-IDF จะคำนึงถึงสิ่งนี้ด้วย “ความถี่ของเอกสารผกผัน”ลดน้ำหนักของคำศัพท์เหล่านั้นที่มีบ่อยมากในข้อความหลายฉบับที่นำมาพิจารณา ในตัวอย่างของเรา อัลกอริทึมจะให้น้ำหนักมากขึ้นกับคำว่า "การวิเคราะห์" เมื่อคำนวณ TF-IDF โดยทั่วไป อัลกอริธึมส่วนนี้จะให้ น้ำหนักมากขึ้นกับคำที่เฉพาะเจาะจงมากขึ้นในข้อความค้นหา

แน่นอน ตามที่ระบุไว้ข้างต้น เครื่องมือค้นหาใช้แบบจำลองที่ซับซ้อนมากขึ้นอย่างไม่สิ้นสุดเพื่อกำหนดความเกี่ยวข้อง ตามมาตรฐานปัจจุบัน ด้วยเครื่องมือค้นหาที่เข้าใจความหมาย หน้าเว็บอาจมีความเกี่ยวข้องสูงเมื่อเทียบกับคำค้นหา แม้ว่าจะมีความถี่ 0% ของคำนั้นก็ตาม กรณีนี้อาจเกิดขึ้นได้หากมีการใช้คำพ้องความหมาย หรือหากเครื่องมือค้นหาตรวจพบช่วงของคำที่มักใช้ในข้อความเกี่ยวกับคำนั้น แม้ว่าจะไม่มีคำนั้นอยู่ก็ตาม นี่คือเหตุผลที่ TF-IDF ธรรมดาไม่เกี่ยวข้องอีกต่อไป