Post by account_disabled on Jan 31, 2024 3:50:09 GMT -5
技术搜索引擎优化 | 高级搜索引擎优化 作者的观点完全是他们自己的(不包括催眠这一不太可能发生的事件),并且可能并不总是反映 Moz 的观点。 我每天都使用网络爬虫。虽然它们非常有用,但它们只是模仿搜索引擎爬虫的行为,这意味着您并不总能了解完整情况。 日志文件是唯一可以让您真正了解搜索引擎如何抓取您的网站的工具。尽管如此,许多人仍然痴迷于抓取预算——Googlebot 可以并且想要抓取的网址数量。 日志文件分析可能会发现您网站上的 URL,这些 URL 是您不知道的,但搜索引擎无论如何都在抓取 — 这是对 Google 服务器资源的重大浪费(Google 网站站长博客): “在此类页面上浪费服务器资源会耗尽真正有价值的页面的爬网活动,这可能会导致在网站上发现精彩内容的过程出现严重延迟。” 虽然这是一个令人着迷的话题,但事实是大多数网站不需要太担心抓取预算——John Mueller(Google 网站站长趋势分析师)已经多次分享了这一观察结果。 不过,分析这些爬行产生的日志仍然具有巨大的价值。它将显示 Google 正在抓取哪些页面以及是否需要修复任何内容。
当您确切地知道日志文件告诉您什么时,您将获得有关 Google 如何抓取和查看您 目标电话号码或电话营销数据 的网站的宝贵见解,这意味着您可以优化这些数据以增加流量。站点越大,解决这些问题的影响就越大。 什么是服务器日志? 日志文件是进出服务器的所有内容的记录。将其视为爬虫和真实用户发出的请求的分类帐。您可以准确地看到 Google 在您的网站上抓取了哪些资源。 您还可以查看哪些错误需要您注意。例如,我们在分析中发现的问题之一是我们的 CMS 为每个页面创建了两个 URL,而 Google 发现了这两个 URL。这会导致重复内容问题,因为具有相同内容的两个 URL 相互竞争。 分析日志并不是什么复杂的事情——其逻辑与处理 Excel 或 Google Sheets 中的表格时的逻辑相同。最困难的部分是访问它们——导出和过滤这些数据。 第一次查看日志文件可能也会让人感到有些畏惧,因为当您打开日志文件时,您会看到如下内容: 冷静下来,仔细看看一是用户代理(签名)——这是 Googlebot(桌面)的用户代理 一旦你知道每一行是由什么组成的,它就不那么可怕了。这只是很多信息。但这就是下一步派上用场的地方。 您可以使用的工具 您可以选择许多工具来帮助您分析日志文件。我不会向您提供可用工具的完整列表,但了解静态工具和实时工具之间的区别很重要。 静态— 这只分析静态文件。
你不能延长时间。想分析另一个时期吗?您需要请求新的日志文件。我最喜欢的分析静态日志文件的工具是 Power BI。 实时— 让您可以直接访问日志。我非常喜欢开源ELK Stack (Elasticsearch、Logstash 和 Kibana)。实现它需要付出一定的努力,但一旦堆栈准备就绪,我就可以根据自己的需要更改时间范围,而无需联系我们的开发人员。 开始分析 不要仅仅抱着希望找到一些东西而深入日志——开始提出问题。如果你不在一开始就提出你的问题,你最终会陷入一个没有方向、没有真正见解的兔子洞。 以下是我在分析开始时使用的一些问题示例: 哪些搜索引擎抓取我的网站? 哪些 URL 最常被抓取? 哪些内容类型最常被爬网? 返回哪些状态代码? 如果您发现 Google 正在抓取不存在的网页 (404),您可以开始询问哪些请求的网址返回 404 状态代码。 按请求数对列表进行排序,评估数量最多的页面以查找优先级最高的页面(请求越多,优先级越高),并考虑是否重定向该 URL 或执行任何其他操作。 如果您使用 CDN 或缓存服务器,您还需要获取该数据才能了解完整情况。 对您的数据进行分段 将数据分组可以提供汇总数据,让您了解全局。这样可以更轻松地发现您可能因仅查看单个 URL 而错过的趋势。您可以找到有问题的部分,并根据需要进行深入分析。
当您确切地知道日志文件告诉您什么时,您将获得有关 Google 如何抓取和查看您 目标电话号码或电话营销数据 的网站的宝贵见解,这意味着您可以优化这些数据以增加流量。站点越大,解决这些问题的影响就越大。 什么是服务器日志? 日志文件是进出服务器的所有内容的记录。将其视为爬虫和真实用户发出的请求的分类帐。您可以准确地看到 Google 在您的网站上抓取了哪些资源。 您还可以查看哪些错误需要您注意。例如,我们在分析中发现的问题之一是我们的 CMS 为每个页面创建了两个 URL,而 Google 发现了这两个 URL。这会导致重复内容问题,因为具有相同内容的两个 URL 相互竞争。 分析日志并不是什么复杂的事情——其逻辑与处理 Excel 或 Google Sheets 中的表格时的逻辑相同。最困难的部分是访问它们——导出和过滤这些数据。 第一次查看日志文件可能也会让人感到有些畏惧,因为当您打开日志文件时,您会看到如下内容: 冷静下来,仔细看看一是用户代理(签名)——这是 Googlebot(桌面)的用户代理 一旦你知道每一行是由什么组成的,它就不那么可怕了。这只是很多信息。但这就是下一步派上用场的地方。 您可以使用的工具 您可以选择许多工具来帮助您分析日志文件。我不会向您提供可用工具的完整列表,但了解静态工具和实时工具之间的区别很重要。 静态— 这只分析静态文件。
你不能延长时间。想分析另一个时期吗?您需要请求新的日志文件。我最喜欢的分析静态日志文件的工具是 Power BI。 实时— 让您可以直接访问日志。我非常喜欢开源ELK Stack (Elasticsearch、Logstash 和 Kibana)。实现它需要付出一定的努力,但一旦堆栈准备就绪,我就可以根据自己的需要更改时间范围,而无需联系我们的开发人员。 开始分析 不要仅仅抱着希望找到一些东西而深入日志——开始提出问题。如果你不在一开始就提出你的问题,你最终会陷入一个没有方向、没有真正见解的兔子洞。 以下是我在分析开始时使用的一些问题示例: 哪些搜索引擎抓取我的网站? 哪些 URL 最常被抓取? 哪些内容类型最常被爬网? 返回哪些状态代码? 如果您发现 Google 正在抓取不存在的网页 (404),您可以开始询问哪些请求的网址返回 404 状态代码。 按请求数对列表进行排序,评估数量最多的页面以查找优先级最高的页面(请求越多,优先级越高),并考虑是否重定向该 URL 或执行任何其他操作。 如果您使用 CDN 或缓存服务器,您还需要获取该数据才能了解完整情况。 对您的数据进行分段 将数据分组可以提供汇总数据,让您了解全局。这样可以更轻松地发现您可能因仅查看单个 URL 而错过的趋势。您可以找到有问题的部分,并根据需要进行深入分析。