如果搜索引擎优化爬虫无法索引页面,就会返回爬行错误。HubSpot搜索引擎优化和导入工具中的爬虫以及Semrush等外部爬虫都可能出现这种情况。解决抓取错误的步骤取决于错误和页面的托管位置。
HubSpot的搜索引擎优化工具抓取HubSpot页面
您可以在页面或文章性能详情的"优化 "选项卡上查看搜索引擎优化建议。如果页面抓取出现问题,你可能会看到以下错误信息之一:
- 状态 301:永久移动:301 重定向阻止了爬虫访问内容 。
- 状态 302:对象已移动:302(临时)重定向阻止爬虫访问内容。
- 状态 403:禁止:可以访问服务器,但拒绝访问内容。
- 状态 404:未找到:由于内容被删除或移动,爬网程序无法找到该内容的实时版本。
- 通过 robots.txt 阻止抓取 [站点]: robots.txt 文件阻止了内容的索引。
HubSpot的搜索引擎优化工具抓取外部页面
如果您尝试使用 HubSpot 的搜索引擎优化工具抓取外部页面,或将外部内容导入到 HubSpot,您可能会遇到以下错误之一:
- 扫描被robots.txt文件阻止:如果你的外部页面被robots.txt文件排除在索引之外,请添加HubSpot爬虫的用户代理 "HubSpot爬虫 "作为豁免。了解有关使用robots.txt文件的更多信息。
- 无法检索到robots.txt文件:如果HubSpot爬虫无法访问您网站的robots.txt文件,请检查robots.txt文件是否可访问,是否在您网站的顶级目录中。了解有关使用 robots.txt 文件的更多信息。
- 爬虫无法扫描该URL:如果HubSpot的爬虫无法抓取特定URL,请尝试以下故障排除步骤:
- 验证输入的URL是否正确。
- 验证正在抓取的页面当前是有效的。
- 验证 DNS 是否可以解析 URL。在Google 文档中了解有关解决 DNS 错误的更多信息。
- 联系您的网站管理员,要求他们将我们爬虫的用户代理 "HubSpot Crawler "添加到允许列表中作为豁免。
外部搜索引擎优化工具抓取HubSpot页面
如果您尝试使用 Moz 或 Semrush 等外部搜索引擎优化工具抓取 HubSpot 页面,您可能会发现无法成功抓取页面。
导致这一问题的常见原因包括
- 您的页面包含在robots.txt 文件中,导致无法被索引或抓取。
- 网页头部 HTML 中的 "noindex "元标签导致网页无法被索引或抓取。
- 审核根域而不是连接到 HubSpot 的子域会导致超时错误。
- 当新博文发布时,RSS 源和博客列表页面的链接会过期,这可能会产生资源受阻错误。
- 非必要资源,如加载 HubSpot sprocket 菜单的脚本,可能会提示资源已封锁错误。但这并不妨碍抓取页面的其他部分。