问:百度蜘蛛爬虫不同IP段有什么含义吗?
倪叶明答:
最近我比较关注百度蜘蛛抓取这块,因为倪叶明博客看起来好像正在向一个比较好的状态在发展。
之前百度已经很长时间不收录内容页了,但是现在终于开始收录网站新文章了,这是一件比较好的事情。
所以,基本上我每天都会打开网站日志,分析一下百度蜘蛛抓取的情况。
今天我看到这样的一个数据:
同一篇文章,百度居然用了4个IP进行了抓取。
所以,当时我就在想一个问题,是不是不同的IP蜘蛛代表了不同的含义。
所以,我就百度搜索了一下,本来不搜索还没什么事情,一搜索就发现,好多的站长都在纠结一个问题:
百度不同IP段的蜘蛛,是不是应该有什么不同的含义?
例如有的人说这个IP段是降权蜘蛛、那个IP段是权重蜘蛛、另外个IP段是沙盒蜘蛛之类的。
有的文章还写的煞有其事,看起来好像是真的似的。
上图是我从别的网站截图过来的内容,注意,上图的内容是完全不可信的,也不知道是谁这么无聊,总结这些完全不可靠的内容。
没有任何的参考依据。
我查阅了很多的数据,例如某个IP段,有的人说是百度降权蜘蛛,但是有的人说不事,你说是还是不是?
后来,我想了想,其实纠结这个问题,没有任何的意义。
百度爬虫本身就是有很多IP段在爬行的,而且百度官方也说过,没有什么降权IP之类的一说,当然百度有的时候自己说的东西也不准确。
我大概觉得这个事情如下:
百度不同的IP段应该的确是代表了有不同的原因的,例如本篇文章第一张图,百度用了4个IP来抓取一篇文章,这本来是一件完全没有必要的事情,但是它就这么做了,所以一定有原因,但是至于原因是什么不得而知。
也没必要花时间去研究,因为这个问题是没有答案的,如果有答案,早就已经有了,不至于一直到现在,大家都还在猜测。
如果你硬要我给点答案的话,我根据网站的情况,大家可以给大家分析一下,为什么会出现4个IP抓取一篇文章的情况。
首先:
我查阅了这篇文章,它是有页面权重的。
其次:
我这个网站之前因为备案的时候关闭了网站,导致百度以为网站关闭了,所以网站收录归零了。
所以,现在可能百度重新进行了抓取。
还有:
这篇文章并不是在倪叶明博客里面首先发布的,而是从我另外一个网站里面复制过来的一篇文章,所以理论上来说不属于原创文章。
想来想去,大概就是这么几点原因,所以导致百度的IP可能进行了抓取判断。
在这4个IP里面,只有一个IPabcd段是完全不一样的,就是这个IP,有点意义。
另外一个IP220.181.108,只有D段不一样,我查询了一下百度数据,有一些人说这个IP段是百度主力抓取的IP,占比90%左右的抓取任务,听起来这个答案应该是可信的。
发表评论