想让爬虫乖乖听话?Ahrefs Site Audit Sitemap 终极指南

在网站 SEO 优化中,定期进行技术审查(Site Audit)是保持网站健康度的重要步骤。很多站长希望 Site Audit 只抓取 Sitemap 中的页面,以保证分析范围精准,避免爬取无关页面。本文将详细介绍在 Ahrefs Site Audit 中设置爬取范围,让其只抓取 Sitemap 中的 URL,涵盖新项目和现有项目两种情况。

20250904101933593-image

一、新项目中设置只抓取 Sitemap

Step 1:创建新项目并配置 URL 来源

  • 创建一个新项目,在 ScopeOwnership 部分填写相关信息。
  • 进入 Site Audit,找到 URL Sources 标签页。
  • 仅勾选 Specific sitemaps 选项。
  • 在下方的输入框中填入 Sitemap 的 URL(可同时输入多个 Sitemap 地址)。
20250904102034345-image

必须保证除了 Specific sitemaps 之外,其他选项均保持未勾选状态,这样爬虫才会从指定的 Sitemap 开始抓取页面。

Step 2:设置抓取深度

  1. 进入下一步 Crawl settings
  2. 找到 Max depth level from the seed,并将其设置为 0
20250904102049883-image

此设置会告诉爬虫:不要抓取超出 Sitemap 所包含的页面,仅限于 Sitemap 内的 URL。

Step 3:完成项目配置并开始抓取

  1. 点击 Continue,完成新项目的其他配置。
  2. 等待爬虫运行完成后,在 Crawl log 中可以看到抓取结果。

需要注意的是:

  • Known URLs(已知 URL)通常会比 Crawled URLs(已抓取 URL)数量更多,这是正常现象。
  • 已抓取的页面仅限于项目范围,而已知 URL 则包含被舍弃的链接。
20250904102106370-image

若想确认爬虫只抓取了 Sitemap 中的页面,可进入 Page explorer,将筛选条件设置为 Is in sitemap = Yes,页面数量应等于已抓取的页面数。

20250904102129721-image

二、在现有项目中修改为只抓取 Sitemap

有时项目已存在,但需要修改范围为仅限 Sitemap。这种情况下要特别注意:更改抓取范围会影响 Site Audit 的整体指标。若希望保留原始数据,可以删除现有项目并重新创建。

Step 1:进入现有项目设置

  • 打开 Site Audit dashboard
  • 点击项目旁的 竖向省略号(三点按钮),选择 Settings
20250904102211112-image
  • 在右侧面板点击 Site Audit,进入 Site Audit 设置界面。
  • 重复新项目的步骤:在 URL Sources 中仅勾选 Specific sitemaps,并输入 Sitemap URL。
20250904102224226-image

Step 2:运行新一轮抓取

  1. 回到 Site Audit 页面,点击项目。
  2. 点击 New crawl 按钮,让 Ahrefs 重新爬取网站。
  3. 爬虫完成后,即可在 Crawl log 中查看更新后的结果。
20250904102237816-image

三、总结

在 Ahrefs Site Audit 中,如果想让爬虫只抓取 Sitemap 内的页面,需要完成以下两步:

  • 在 URL Sources 中仅勾选 Specific sitemaps,输入 Sitemap 地址;
  • 在 Crawl settings 中,将 Max depth level from the seed 设置为 0

对于新项目,可在创建流程中设置;在现有项目中,需要进入设置页面并运行新的抓取。完成后,可以在 Page explorer 中筛选 Is in sitemap = Yes,确认页面数量与抓取结果一致。

这种方法能够帮助 SEO 人员更精准地监控核心页面的健康度,避免分散数据,也能节省爬虫资源和分析时间。


了解 宝藏号 的更多信息

订阅后即可通过电子邮件收到最新文章。

© 版权声明

相关文章

暂无评论

none
暂无评论...

了解 宝藏号 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读