Skip to main content

网站地图

TL;博士

站点地图是理想情况下列出特定域下的所有页面(绝对 URL)的文本文件,以通过获取提供的所有可用 URL 并对其进行正确索引来简化爬网。

什么是站点地图?

站点地图是(通常是 XML)文件,其中包含有关站点上的页面、视频和其他文件的信息。搜索引擎使用站点地图来正确抓取网站,因为它会向抓取工具传达以下信息: 识别网站上的基本文件 抓取最新页面和内容更新 查看页面的替代语言版本 指定视频运行时间、类别及其年龄适宜性评级 查看图像的主题、类型和许可。

为什么需要站点地图?

站点地图可帮助爬虫发现网站及其页面并改进网站索引。建议在以下情况下提交更新的站点地图: 网站确实很大,站点地图会帮助爬虫找到新添加或更新的页面。该网站有很多内容和页面,但它们之间没有链接。该网站是新发布的,几乎没有外部链接。如果没有指向新发布的页面或站点的链接,Googlebot 和其他网络爬虫可能不会发现它们。

如何构建站点地图

一旦选择了搜索引擎的爬虫要爬取的页面,确定每个页面的规范版本和要使用的站点地图格式(XML、RSS、mRSS 和 Atom 1.0、文本)。站点地图可以手动创建或从多个第三方工具自动生成。生成站点地图后,通过将其添加到站点的 robots.txt 文件或将其提交到 Search Console,使其可供搜索引擎的爬虫使用。