2015.11.05
2867
每个SEO都必须要非常清楚百度蜘蛛是什么、百度蜘蛛的原理,不然难以让优化产生效果。“百度蜘蛛”这个概念非常的形象,他的意思是指一段能够从某些页面开始访问网页、找到网页中的链接地址并通过它们寻找网页的Socket程序。为了提高下载效率,百度蜘蛛一般被设计成队列缓冲、多线程的并行结构。一般来说,百度蜘蛛具有HTTP下载模块、链接分析模块和下载控制模块。其中,HTTP下载模块利用HTTP网络协议下载并存储页面内容,链接分析模块能够提取网页内的超链接并以此来获得后续页面的入口,下载控制模块则控制着网页的访问次序、更新策略、访问队列调度等工作。
百度蜘蛛的原理是什么?百度蜘蛛是什么?
百度蜘蛛是什么:
二、深度优先和广度优先,百度蜘蛛抓页面的时候从起始站点(即种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只 负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好。
考虑到信息抓取、存储和处理技术等诸多瓶颈,百度蜘蛛一般只抓取那些相对重要的网页。在抓取网页的时候,网络蜘蛛一般采取广度优先和深度优先算法。它一般应该向网站表明自己的身份(注:在请求中,一般有A个User-agent宇段用于标识百度蜘蛛的身份) ,在进入一个网站后,它一般会首先访问该网站放在服务器根目录下的Robots.txt(Robots.txt详情戳这里),以便明确哪些网页是不应去抓取的,或者哪些目录对于某些特定的网络蜘蛛是不能访问的。