跳到内容

了解搜索引擎优化抓取错误

上次更新时间: 二月 12, 2025

除非另有说明,否则适用于以下任何订阅

所有产品和计划

如果搜索引擎优化爬虫无法索引页面,就会返回爬行错误。HubSpot搜索引擎优化和导入工具中的爬虫以及Semrush等外部爬虫都可能出现这种情况。解决抓取错误的步骤取决于错误和页面的托管位置。

HubSpot的搜索引擎优化工具抓取HubSpot页面

您可以在页面或文章性能详情的"优化 "选项卡上查看搜索引擎优化建议。如果页面抓取出现问题,你可能会看到以下错误信息之一:

  • 状态 301:永久移动:301 重定向阻止了爬虫访问内容
  • 状态 302:对象已移动:302(临时)重定向阻止爬虫访问内容。
  • 状态 403:禁止:可以访问服务器,但拒绝访问内容。
  • 状态 404:未找到:由于内容被删除或移动,爬网程序无法找到该内容的实时版本。
  • 通过 robots.txt 阻止抓取 [站点] robots.txt 文件阻止了内容的索引。

HubSpot的搜索引擎优化工具抓取外部页面

如果您尝试使用 HubSpot 的搜索引擎优化工具抓取外部页面,或将外部内容导入到 HubSpot,您可能会遇到以下错误之一:

  • 扫描被robots.txt文件阻止:如果你的外部页面被robots.txt文件排除在索引之外,请添加HubSpot爬虫的用户代理 "HubSpot爬虫 "作为豁免。了解有关使用robots.txt文件的更多信息。
  • 无法检索到robots.txt文件:如果HubSpot爬虫无法访问您网站的robots.txt文件,请检查robots.txt文件是否可访问,是否在您网站的顶级目录中。了解有关使用 robots.txt 文件的更多信息。
  • 爬虫无法扫描该URL:如果HubSpot的爬虫无法抓取特定URL,请尝试以下故障排除步骤:
    • 验证输入的URL是否正确。
    • 验证正在抓取的页面当前是有效的。
    • 验证 DNS 是否可以解析 URL。在Google 文档中了解有关解决 DNS 错误的更多信息。
    • 联系您的网站管理员,要求他们将我们爬虫的用户代理 "HubSpot Crawler "添加到允许列表中作为豁免。

外部搜索引擎优化工具抓取HubSpot页面

如果您尝试使用 Moz 或 Semrush 等外部搜索引擎优化工具抓取 HubSpot 页面,您可能会发现无法成功抓取页面。

导致这一问题的常见原因包括

  • 您的页面包含在robots.txt 文件中,导致无法被索引或抓取。
  • 网页头部 HTML 中的 "noindex "元标签导致网页无法被索引或抓取。
  • 审核根域而不是连接到 HubSpot 的子域会导致超时错误。
  • 当新博文发布时,RSS 源和博客列表页面的链接会过期,这可能会产生资源受阻错误。
  • 非必要资源,如加载 HubSpot sprocket 菜单的脚本,可能会提示资源已封锁错误。但这并不妨碍抓取页面的其他部分。
这篇文章有帮助吗?
此表单仅供记载反馈。了解如何获取 HubSpot 帮助