搜索引擎蜘蛛
原创:http://www.qicheng.org/
搜索引擎蜘蛛即Web Spider,是搜索引擎研究者给予搜索引擎爬行程序,也就是我们通常所说的一个抓取网页的程序的一个很形象的称呼。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
搜索引擎蜘蛛的工作原理
搜索引擎想要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。那究竟原因何在呢?
1、抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;
2、存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算, 需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。
由于页面链接的不完全性,以及数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
在抓取网页的时候,搜索引擎蜘蛛一般有两种搜索策略:广度优先搜索策略和深度优先搜索策略。
搜索引擎蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。搜索引擎蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User -agent,用于标识此搜索引擎蜘蛛的身份。例如Google搜索引擎蜘蛛的标识为GoogleBot,Baidu搜索引擎蜘蛛的标识为BaiDuSpider, Yahoo搜索引擎蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的搜索引擎蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系,查看日志记录,其实查看的都是一些http状态代码,有不清楚的朋友,可以参考文章“HTTP 状态代码”。
搜索引擎蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问,如果大家不太了解Robots,请直接参考文章“robot.txt”。
启程搜索引擎优化团队(www.qicheng.org)告诉您,搜索引擎蜘蛛实际上抓取的页面,并不是我们眼睛看到的东西,而是抓取的页面代码,也就是我们所了解到的HTML代码,HTML代码是一种语言,当然说的直接一点,就是一些特定的符号,表示特定的信息。如果大家对于搜索引擎蜘蛛的爬行比较敢兴趣,可以阅读文章“搜索引擎蜘蛛的访问规则”。
文章来源:http://www.qicheng.org/seo/web-spider.html
转载请注明版权:SEO 浏览更多SEO文档,请关注青岛网站优化、青岛网站推广服务团队。
版权所有。转载时必须以链接形式注明文章原始出处!