Robots.txt

TL;DR
Robots.txt er en ekskluderingsprotokol for webcrawlere til at ignorere bestemte sider, mapper eller filer på et websted, og bruges til at forbedre søgemaskineoptimering.
Om Robots.txt
Standard for udelukkelse af robotter, også kaldet robotekskluderingsprotokollen (forkortet Robots.txt) er en fil, der lader søgemaskinespiders vide, hvilke websider eller dele af et websted, der ikke skal gennemgås. Det er vigtigt for robots.txt at være opsat korrekt, da en enkelt fejl kan få en hel hjemmeside deindekseret fra søgemaskiner.
Hvorfor er Robots.txt vigtigt?
Robots.txt er en vigtig del af SEO, da alle større søgemaskiner genkender og adlyder denne udelukkelsesstandard. De fleste websteder har ikke brug for denne protokol, da Google kun vil indeksere de vigtige sider på et websted, og udelade resten (f.eks. duplikerede sider), men der er nogle tilfælde, hvor det anbefales at bruge robots.txt. Robotekskluderingsstandarden kan bruges til at forhindre indeksering af multimedieressourcer (f.eks. billeder), blokere sider, der ikke er offentlige (f.eks. medlemsloginsider) og til at maksimere crawl-budgettet.
Eksempler på Robot.txt-filer
Det grundlæggende format for robots.txt-filen er: User-agent: ______ Disallow: ______ Hvor user-agent er navnet på den robot, der adresseres, og den del, der kommer efter "disallow" vil indeholde navnet på websiden , mappe eller fil, som robotten skal ignorere, mens han besøger et websted. En stjerne (*) kan bruges i stedet for navnet på en bestemt bot, hvis man ønsker at adressere alle de robotter, der måtte besøge hjemmesiden. I dette eksempel informeres crawlerne om ikke at gå ind i de nævnte mapper: User-agent: * Disallow: /tmp/Disallow: /junk/Mens i denne, bliver crawlere informeret om at undgå en specifik fil: User-agent: * Disallow: /mappe/fil.html