请注意：：本文仅为方便您阅读而提供。

了解搜索引擎优化抓取错误

上次更新时间： 2025年10月20日

可与以下任何订阅一起使用，除非另有说明：

所有产品和计划

如果搜索引擎优化爬虫无法索引页面，就会返回爬行错误。HubSpot搜索引擎优化和导入工具中的爬虫以及Semrush等外部爬虫都可能出现这种情况。解决抓取错误的步骤取决于错误和页面的托管位置。

HubSpot的搜索引擎优化工具抓取HubSpot页面

您可以在页面或文章性能详情的"优化 "选项卡上查看搜索引擎优化建议。

导航到您的内容：
- 网站页面：在 HubSpot 帐户中，导航到内容 > 网站页面。
- 登陆页面：在 HubSpot 帐户中，导航到内容 > 登陆页面。
- 博客：在 HubSpot 帐户中，导航到内容 > 博客。
将鼠标悬停在内容上，然后单击性能。
单击优化选项卡。
默认情况下，左侧边栏菜单中将选择 "建议"。要重新扫描内容，请单击立即重新扫描。如果在抓取页面时出现问题，可能会看到以下错误信息之一：

- 状态 301：永久移动：301 重定向阻止爬虫访问内容。
- 状态 302：对象已移动：302（临时）重定向阻止爬网程序访问内容。
- 状态 403：禁止：可以访问服务器，但拒绝访问内容。
- 状态 404：未找到：由于内容被删除或移动，爬网程序无法找到该内容的实时版本。
- 通过 robots.txt 阻止抓取 [站点]： robots.txt 文件阻止了内容的索引。

HubSpot 的搜索引擎优化工具正在抓取外部页面

如果您尝试使用 HubSpot 的搜索引擎优化工具抓取外部页面，或将外部内容导入到 HubSpot，您可能会遇到以下错误之一：

扫描被robots.txt文件阻止：如果你的外部页面被robots.txt文件排除在索引之外，请添加HubSpot爬虫的用户代理 "HubSpot爬虫 "作为豁免。了解有关使用robots.txt文件的更多信息。
无法检索到robots.txt文件：如果HubSpot的爬虫无法访问网站的robots.txt文件，请检查robots.txt文件是否可访问且位于网站的顶级目录中。了解有关使用 robots.txt 文件的更多信息。
爬虫无法扫描该URL：如果HubSpot的爬虫无法抓取特定URL，请尝试以下故障排除步骤：
- 验证输入的URL是否正确。
- 验证正在抓取的页面当前是有效的。
- 验证 DNS 是否可以解析 URL。在Google 文档中了解有关解决 DNS 错误的更多信息。
- 联系您的网站管理员，要求他们将我们爬虫的用户代理 "HubSpot Crawler "添加到允许列表中作为豁免。

外部搜索引擎优化工具抓取HubSpot页面

如果您尝试使用 Moz 或 Semrush 等外部搜索引擎优化工具抓取 HubSpot 页面，您可能会发现无法成功抓取页面。

导致这一问题的常见原因包括

在robots.txt 文件中包含的网页阻止了对它们的索引或抓取。
网页头部 HTML 中的 "noindex "元标签导致网页无法被索引或抓取。
审核根域而不是连接到 HubSpot 的子域会导致超时错误。
当新博文发布时，RSS 源和博客列表页面的链接会过期，这可能会产生资源受阻错误。
非必要资源，如加载 HubSpot sprocket 菜单的脚本，可能会提示资源已封锁错误。但这并不妨碍抓取页面的其他部分。

这篇文章有帮助吗？

此表单仅供记载反馈。了解如何获取 HubSpot 帮助。