Robots.txt

TL;DR
Robots.txt is een uitsluitingsprotocol voor webcrawlers om bepaalde pagina's, mappen of bestanden op een website te negeren, en wordt gebruikt om zoekmachine optimalisatie te verbeteren.
Over Robots.txt
Robots uitsluiting standaard ook wel aangeduid als de robots uitsluiting protocol (Robots.txt in het kort) is een bestand dat laat zoekmachine spiders weten welke webpagina's of delen van een website niet te crawlen. Het is belangrijk dat de robots.txt correct is ingesteld, omdat een enkele fout een hele website kan laten deïndexeren door zoekmachines.
Waarom is Robots.txt belangrijk?
Robots.txt is een belangrijk onderdeel van SEO, omdat alle grote zoekmachines deze uitsluitingsstandaard erkennen en gehoorzamen. De meerderheid van de sites heeft dit protocol niet nodig, omdat Google alleen de belangrijke pagina's van een website indexeert en de rest weglaat (bijv. duplicaatpagina's), maar er zijn enkele gevallen waarin het wordt aanbevolen om robots.txt te gebruiken. De robots-uitsluitingsnorm kan worden gebruikt om te voorkomen dat multimediabronnen (bv. afbeeldingen) worden geïndexeerd, om pagina's te blokkeren die niet openbaar zijn (bv. aanmeldingspagina's voor leden) en om het crawlbudget te maximaliseren.
Voorbeelden van robots.txt-bestanden
Het basisformaat voor een robots.txt bestand is User-agent: ______ Disallow: ______ Waarbij de user-agent de naam is van de robot die wordt aangesproken, en het deel dat na "disallow" komt de naam bevat van de webpagina, map of bestand die de robot moet negeren tijdens het bezoeken van een website. Een asterisk (*) kan gebruikt worden in plaats van de naam van een specifieke bot, als men alle robots wil aanspreken die de website zouden kunnen bezoeken. In dit voorbeeld wordt de crawlers meegedeeld dat ze de vermelde directories niet mogen binnengaan: User-agent: * Disallow: /tmp/ Disallow: /junk/ Terwijl in dit voorbeeld de crawlers geïnformeerd worden om een specifiek bestand te vermijden: User-agent: * Disallow: /directory/bestand.html