机器人.txt

TL;博士
Robots.txt 是网络爬虫忽略网站上某些页面、文件夹或文件的排除协议,用于改进搜索引擎优化。
关于机器人.txt
机器人排除标准也称为机器人排除协议(简称Robots.txt)是一个文件,它可以让搜索引擎蜘蛛知道哪些网页或网站的哪些部分不要抓取。正确设置 robots.txt 非常重要,因为一个错误可能会使整个网站从搜索引擎中被取消索引。
为什么 Robots.txt 很重要?
Robots.txt 是 SEO 的重要组成部分,因为所有主要搜索引擎都认可并遵守此排除标准。大多数网站不需要此协议,因为 Google 只会索引网站的重要页面,而忽略其余部分(例如重复页面),但在某些情况下建议使用 robots.txt。机器人排除标准可用于防止索引多媒体资源(例如图像),阻止不公开的页面(例如成员登录页面)并最大化抓取预算。
Robot.txt 文件示例
robots.txt 文件的基本格式为: User-agent: ______ Disallow: ______ 其中 user-agent 是被寻址的机器人的名称,“disallow”之后的部分将包含网页的名称,机器人在访问网站时必须忽略的文件夹或文件。如果要解决可能访问该网站的所有机器人,可以使用星号 (*) 代替特定机器人的名称。在此示例中,通知爬虫不要进入上述目录: User-agent: * Disallow: /tmp/Disallow: /junk/而在此示例中,爬虫被告知要避开特定文件: User-agent: * Disallow: /目录/文件.html