网页爬取器
原创:http://www.qicheng.org/
网页爬取器(gatherer),指网页搜索集子系统中根据url完成一篇页面爬取的进程,或者线程,通常一个搜索子系统上会同时启动多个gatherer并行工作。
网页爬取器(gatherer),另外一种称呼就是搜索引擎蜘蛛或者蜘蛛,具体的概念性的东西,将不再说明,不明白的朋友,直接参考上面两个链接。
由于网站的内容经常在变化,因此网页爬取器也需不断的更新其抓取网页的内容,这就需要网页爬取器按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网页爬取器并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
一般来说,网页爬取器在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。
以上内容大部分来自百度百科,启程做了部分调整和修改。
启程(www.qicheng.org)青岛网站优化(SEO)团队的成员认为,网页爬取器,其实就是我们一直在强调的蜘蛛、网络蜘蛛、搜索引擎蜘蛛,这几个名字其实都是一样的,一个概念性的东西,大家了解就可以了,但是搜索引擎蜘蛛的工作原理,大家还是需要掌握的,参加可以参考文章“搜索引擎蜘蛛的访问规则”,详细的了解一下,在抓取网页的时候,搜索引擎蜘蛛一般有两种搜索策略:广度优先搜索策略和深度优先搜索策略。
文章来源:http://www.qicheng.org/seo/gatherer.html
转载请注明版权:SEO 浏览更多SEO文档,请关注青岛网站优化、青岛网站推广服务团队。
版权所有。转载时必须以链接形式注明文章原始出处!