Robots.txt

TL;DR
Robots.txt הוא פרוטוקול אי הכללה עבור סורקי אינטרנט להתעלם מדפים, תיקיות או קבצים מסוימים באתר, והוא משמש לשיפור אופטימיזציה למנועי חיפוש.
אודות Robots.txt
תקן אי הכללת רובוטים המכונה גם פרוטוקול אי הכללת רובוטים (בקיצור Robots.txt) הוא קובץ המאפשר לעכבישים למנועי חיפוש לדעת אילו דפי אינטרנט או חלקים באתר לא יסרוקו. חשוב שה-robots.txt יוגדר כהלכה, מכיוון שטעות בודדת יכולה לגרום לביטול אינדקס של אתר שלם ממנועי החיפוש.
מדוע Robots.txt חשוב?
Robots.txt הוא חלק חשוב מ-SEO, מכיוון שכל מנועי החיפוש הגדולים מזהים ומצייתים לתקן אי הכללה זה. רוב האתרים אינם זקוקים לפרוטוקול זה מכיוון שגוגל תוסיף לאינדקס רק את הדפים החשובים של אתר אינטרנט, ותשאיר את השאר (למשל דפים כפולים), אך ישנם מקרים שבהם מומלץ להשתמש ב-robots.txt. ניתן להשתמש בתקן אי הכללת רובוטים כדי למנוע אינדקס משאבי מולטימדיה (למשל תמונות), לחסום דפים שאינם ציבוריים (למשל דפי התחברות של חברים) וכדי למקסם את תקציב הסריקה.
דוגמאות לקובצי Robot.txt
הפורמט הבסיסי של קובץ robots.txt הוא: User-agent: ______ Disallow: ______ כאשר User-agent הוא שם הרובוט אליו פונים, והחלק שבא אחרי "disallow" יכיל את שם דף האינטרנט , תיקיה או קובץ שהרובוט חייב להתעלם מהם בעת ביקור באתר. ניתן להשתמש בכוכבית (*) במקום שם של בוט ספציפי, אם רוצים להתייחס לכל הרובוטים שעשויים לבקר באתר. בדוגמה זו מודיעים לסורקים לא להיכנס לספריות שהוזכרו: User-agent: * Disallow: /tmp/Disallow: /junk/בעוד בזו, הסורקים מתבקשים להימנע מקובץ ספציפי: User-agent: * Disallow: /directory/file.html