跳到内容
请注意::本文仅为方便您阅读而提供。本文由翻译软件自动翻译,可能未经校对。本文的英文版应被视为官方版本,您可在此找到最新信息。您可以在此处访问。

了解搜索引擎优化抓取错误

上次更新时间: 2025年10月20日

可与以下任何订阅一起使用,除非另有说明:

如果搜索引擎优化爬虫无法索引页面,就会返回爬行错误。HubSpot搜索引擎优化和导入工具中的爬虫以及Semrush等外部爬虫都可能出现这种情况。解决抓取错误的步骤取决于错误和页面的托管位置。

HubSpot的搜索引擎优化工具抓取HubSpot页面

您可以在页面或文章性能详情的"优化 "选项卡上查看搜索引擎优化建议。

  1. 导航到您的内容:
    • 网站页面:在 HubSpot 帐户中,导航到内容 > 网站页面
    • 登陆页面:在 HubSpot 帐户中,导航到内容 > 登陆页面
    • 博客:在 HubSpot 帐户中,导航到内容 > 博客
  2. 将鼠标悬停在内容上,然后单击性能
  3. 单击优化选项卡。
  4. 默认情况下,左侧边栏菜单中将选择 "建议"。要重新扫描内容,请单击立即重新扫描。如果在抓取页面时出现问题,可能会看到以下错误信息之一:
    • 状态 301:永久移动:301 重定向阻止爬虫访问内容
    • 状态 302:对象已移动:302(临时)重定向阻止爬网程序访问内容。
    • 状态 403:禁止:可以访问服务器,但拒绝访问内容。
    • 状态 404:未找到:由于内容被删除或移动,爬网程序无法找到该内容的实时版本。
    • 通过 robots.txt 阻止抓取 [站点] robots.txt 文件阻止了内容的索引。

HubSpot 的搜索引擎优化工具正在抓取外部页面

如果您尝试使用 HubSpot 的搜索引擎优化工具抓取外部页面,或将外部内容导入到 HubSpot,您可能会遇到以下错误之一:

  • 扫描被robots.txt文件阻止:如果你的外部页面被robots.txt文件排除在索引之外,请添加HubSpot爬虫的用户代理 "HubSpot爬虫 "作为豁免。了解有关使用robots.txt文件的更多信息。
  • 无法检索到robots.txt文件:如果HubSpot的爬虫无法访问网站的robots.txt文件,请检查robots.txt文件是否可访问且位于网站的顶级目录中。了解有关使用 robots.txt 文件的更多信息。
  • 爬虫无法扫描该URL:如果HubSpot的爬虫无法抓取特定URL,请尝试以下故障排除步骤:
    • 验证输入的URL是否正确。
    • 验证正在抓取的页面当前是有效的。
    • 验证 DNS 是否可以解析 URL。在Google 文档中了解有关解决 DNS 错误的更多信息。
    • 联系您的网站管理员,要求他们将我们爬虫的用户代理 "HubSpot Crawler "添加到允许列表中作为豁免。

外部搜索引擎优化工具抓取HubSpot页面

如果您尝试使用 Moz 或 Semrush 等外部搜索引擎优化工具抓取 HubSpot 页面,您可能会发现无法成功抓取页面。

导致这一问题的常见原因包括

  • robots.txt 文件中包含的网页阻止了对它们的索引或抓取。
  • 网页头部 HTML 中的 "noindex "元标签导致网页无法被索引或抓取。
  • 审核根域而不是连接到 HubSpot 的子域会导致超时错误。
  • 当新博文发布时,RSS 源和博客列表页面的链接会过期,这可能会产生资源受阻错误。
  • 非必要资源,如加载 HubSpot sprocket 菜单的脚本,可能会提示资源已封锁错误。但这并不妨碍抓取页面的其他部分。
这篇文章有帮助吗?
此表单仅供记载反馈。了解如何获取 HubSpot 帮助