Robots.txt

TL;DR
Robots.txt est un protocole d'exclusion permettant aux robots d'exploration Web d'ignorer certaines pages, dossiers ou fichiers d'un site Web, et est utilisé pour améliorer l'optimisation des moteurs de recherche.
À propos de Robots.txt
La norme d'exclusion des robots, également appelée protocole d'exclusion des robots (Robots.txt en abrégé), est un fichier qui permet aux moteurs de recherche de savoir quelles pages Web ou sections d'un site Web ne pas explorer. Il est important que le fichier robots.txt soit configuré correctement, car une seule erreur peut entraîner la désindexation d'un site Web entier des moteurs de recherche.
Pourquoi Robots.txt est-il important ?
Robots.txt est une partie importante du référencement, car tous les principaux moteurs de recherche reconnaissent et respectent cette norme d'exclusion. La majorité des sites n'ont pas besoin de ce protocole car Google n'indexera que les pages importantes d'un site Web, laissant de côté le reste (par exemple, les pages en double), mais il existe certains cas dans lesquels il est recommandé d'utiliser robots.txt. La norme d'exclusion des robots peut être utilisée pour empêcher l'indexation des ressources multimédias (par exemple les images), bloquer les pages qui ne sont pas publiques (par exemple les pages de connexion des membres) et maximiser le budget de crawl.
Exemples de fichiers Robot.txt
Le format de base du fichier robots.txt est le suivant : User-agent : ______ Disallow : ______ Où l'agent utilisateur est le nom du robot auquel il s'adresse et la partie qui suit "disallow" contient le nom de la page Web. , dossier ou fichier que le robot doit ignorer lorsqu'il visite un site Web. Un astérisque (*) peut être utilisé à la place du nom d'un bot spécifique, si l'on souhaite s'adresser à tous les robots susceptibles de visiter le site Web. Dans cet exemple, les crawlers sont informés de ne pas entrer dans les répertoires mentionnés : User-agent : * Disallow : /tmp/Disallow : /junk/Alors que dans celui-ci, les crawlers sont informés d'éviter un fichier spécifique : User-agent : * Disallow : /répertoire/fichier.html