Forever

Do one thing at a time, and do well.

不可不知的百度爬虫抓取策略

之前说了一些需求覆盖率相关的问题,也讲解了IDF对于部署网站关键词有什么意义,这边就直接跳到收录这边,再简单的说一下收录。

我们如果要提升网站收录,首先我们要提高的是高质量页面的收录。

只要能得来流量的页面,我们才需要从收录,对于那些不带来流量的低质量页面,收录了对我们也没什么价值。

收录的前提是页面被抓取了,好,虽然被抓取以后提升页面质量也能使得最终被收录的比例更高,但是这边就先说提抓取问题。

如何抓取高质量的页面,是要讲求策略的。

那么我们就需要先知道抓取优先策略。

1、广度优先策略


广度优先策略是,比如说爬虫先把网站的首页抓走,然后在首页先发现了两个页面,栏目页a和栏目页b,它再把ab两个页面抓走,把第2层的抓走,然后再发现栏目s下有两篇文章,b栏目下有两篇文章。

最后再把这两个栏目下的文章抓取,一层1层往下抓,这就是广度优先策略。

2、深度优先策略


爬虫首先发现了首页,然后在首页又发现了栏目a,然后就抓取了栏目a,然后接着又发现栏目a下面有两篇文章,于是先抓取这两篇文章,它一定是先把整个的分支抓取完毕了,再去看看有没有其他分支,比如说栏目b,大致就是这样的意思。

它是从深度的角度考虑去抓取的。

3、局部PageRank策略


这个策略怎么理解呢?

就是很多链接指向的这个页面搜索引擎认为是重要的,就会优先抓取,通常无论我们做外链,还是内链都会执行某一个页面,它的作用就是增加局部页面的权重。

通过更多观察,发现搜索引擎是以广度优先策略为主,局部配置策略为辅,来抓取的。

也就是对于百度而言,我们相对可能需要注重更多的是广度优先策略。

不过我们要做的事情,说起来是很简单的,就是从种子页面开始,一般种子页面是网站的首页。

一个新站百度最先收录的也就是网站的首页,通过首页层层抓取。

我们在做广度优先策略的时候,其核心是尽可能在最少的点击次数下,达到网站上的目标页面。

网站上的任何一个页面,其实是一个扁平化的结构,这种结构也是相对最高效的。

尽可能让爬虫或者用户在三四次的点击下就能找到自己想要的内容。

不要把深度做的过深,不利于爬虫的抓取。

这种原理就像那个6度的人脉关系一样。

通过6个人背后的关系,传递过去以后也可以找到世上所有的人,哪怕是一个农民要找到美国总统也是一样的,只要找6个人就可以。

所以说我们想促进页面的收录的话,我们就可以根据这一个广度优先策略,然后去做一个针对性的调整。

就像人一样,做工作的时候也是容易的总是被优先处理,你挖水,挖三米就可以出水,那么就会相对轻松。

如果一个人要挖一百米才能出水,那么中间可能就很容易放弃掉,爬虫也有人的这种习性。

程序毕竟也是人做出来的,既然是模仿人,就会多少带点人的色彩,虽然它很高效。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注