Skip to main content

Robots.txt

TL;DR

Robots.txt เป็นโปรโตคอลการยกเว้นสำหรับโปรแกรมรวบรวมข้อมูลเว็บที่จะละเว้นบางหน้า โฟลเดอร์หรือไฟล์บนเว็บไซต์ และใช้สำหรับการปรับปรุงการเพิ่มประสิทธิภาพกลไกค้นหา

เกี่ยวกับ Robots.txt

มาตรฐานการยกเว้นโรบ็อตหรือที่เรียกว่าโปรโตคอลการยกเว้นโรบ็อต (เรียกสั้นๆ ว่า Robots.txt) เป็นไฟล์ที่ช่วยให้สไปเดอร์ของเครื่องมือค้นหาทราบว่าหน้าเว็บหรือส่วนใดของเว็บไซต์ที่ไม่ควรรวบรวมข้อมูล สิ่งสำคัญคือต้องตั้งค่า robots.txt อย่างถูกต้อง เนื่องจากความผิดพลาดเพียงครั้งเดียวอาจทำให้ทั้งเว็บไซต์ถูกแยกดัชนีออกจากเครื่องมือค้นหา

ทำไม Robots.txt ถึงมีความสำคัญ?

Robots.txt เป็นส่วนสำคัญของ SEO เนื่องจากเครื่องมือค้นหาหลักทั้งหมดรับรู้และปฏิบัติตามมาตรฐานการยกเว้นนี้ ไซต์ส่วนใหญ่ไม่ต้องการโปรโตคอลนี้ เนื่องจาก Google จะจัดทำดัชนีเฉพาะหน้าที่สำคัญของเว็บไซต์ ยกเว้นส่วนที่เหลือ (เช่น หน้าที่ซ้ำกัน) แต่มีบางกรณีที่แนะนำให้ใช้ robots.txt มาตรฐานการยกเว้นโรบ็อตสามารถใช้เพื่อป้องกันการสร้างดัชนีทรัพยากรมัลติมีเดีย (เช่น รูปภาพ) บล็อกเพจที่ไม่เป็นสาธารณะ (เช่น หน้าล็อกอินของสมาชิก) และเพื่อเพิ่มงบประมาณการรวบรวมข้อมูลสูงสุด

ตัวอย่างไฟล์ Robot.txt

รูปแบบพื้นฐานสำหรับไฟล์ robots.txt คือ: User-agent: ______ Disallow: ______ โดยที่ user-agent เป็นชื่อของโรบ็อตที่กำลังถูกระบุ และส่วนที่อยู่หลัง “disallow” จะมีชื่อของหน้าเว็บ , โฟลเดอร์หรือไฟล์ที่โรบ็อตต้องละเว้นขณะเยี่ยมชมเว็บไซต์ สามารถใช้เครื่องหมายดอกจัน (*) แทนชื่อบ็อตเฉพาะ หากต้องการระบุถึงโรบ็อตทั้งหมดที่อาจเข้าชมเว็บไซต์ ในตัวอย่างนี้ โปรแกรมรวบรวมข้อมูลจะได้รับแจ้งไม่ให้ป้อนไดเร็กทอรีที่กล่าวถึง: User-agent: * Disallow: /tmp/Disallow: /junk/ในขณะที่อยู่ในนี้ โปรแกรมรวบรวมข้อมูลจะได้รับแจ้งเพื่อหลีกเลี่ยงไฟล์เฉพาะ: User-agent: * Disallow: /directory/file.html