Forum Posts

nehar
Aug 01, 2022
In Welcome to the Forum
所以我通常会得到,有时是一堆,但我会得到所有独特的,我可以在你的计算机上,在大多数标准计算机上访问终端。 我试着画出来。看起来是这样的。但是您所做的只是输入“主机”,然后输入该 IP 地址。您可以使用此 IP 地址在终端上执行此操作,您将看到它解析为 Google.com。这证明它确实是一个 Googlebot,而不是其他一些欺骗 Google 的爬虫。因此,这些工具往往会自动处理这些事情,但也有一些方法可以手动完成,这一点需要注意。 3.优化页面和爬取预算 好的,那么您如何针对这些数据进行优化并真正开始增加您的抓取预算?当我说“抓取预算”时,它主要是指 Googlebot 访问您网 号码表 站的次数以及它们通常抓取的页面数量。那是什么?抓取预算是什么样的,如何提高效率? 服务器错误意识:因此服务器错误意识非常重要。最好留意某些页面上 500 个错误的增加。 404s:有效吗?推荐人?:另一件值得看的事情是 Googlebot 正在寻找的所有 400 个。 看到这一点非常重要:好的,那是 400 请求,它是有效的 400 吗?那个页面不存在吗?或者它是一个应该存在但不再存在但你可以修复的页面?如果那里有错误或不应该存在,那么推荐人是什么?Googlebot 是如何发现这一点的,您如何开始清理其中的一些内容? 隔离 301s 并修复频繁命中的 301 链: 301s,所以这些日志文件中有很多关于 301s 的问题。我发现的最好的技巧,我知道其他人也发现了,就是隔离和修复最常见的 301 链。所以你可以在数据透视表中做到这一点。当您将其与爬网数据配对时,这样做实际上要容易得多,因为现在您对该链有了更多的了解。
我将使用 创建一个数据透视表就在这里
 content media
0
0
3
 

nehar

More actions