搜易达软件官网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1395|回复: 0
打印 上一主题 下一主题

搜索引擎会使用分布式计算,Spider也会使用分布式计算

[复制链接]
跳转到指定楼层
楼主
发表于 2017-3-5 08:46:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取作业任务侵害很多较小的部分,使用大量合理计算能力的服务器来承载这个任务,以完成对全互联网网页的快速抓取,现在大型搜索引擎会使用分布式计算,同样Spider也会使用分布式计算 ,可以称这种Spider为分布式Spider,它遵循了分布式计算的主要规则,根据这些规则也可以解释现在站长和SEO人员关心的“降权蜘蛛”问题。
分布式计算有很多种计算方式,这里简单介绍Spider应有的分布式抓取策略。涉及分布式计算,也就涉及任务分发机制,整个分布式Spider系统需要保证所有Spider之间不会有重复抓取的情况发生,也就是要为各个Spider分配好抓取范围,当一个Spider发现了一个新的URL时,会判断该URL是否在自己的抓取范围之内,如果在自己的抓取范围之内,就会把该URL放到自己待抓取URL队列中,如果不在自己的抓取范围之内,如果在自己的抓取范围之内,就会把该URL放到自己待抓取的URL队列中,如果不在自己的抓取范围之内,就会把该URL提交给上级服务器,由上级服务器分发给相应的Spider,并加入到Spider的待抓取URL列表中。
分享到:  QQ好友和群QQ好友和群
收藏收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

|小黑屋|手机版|Archiver|搜易达软件论坛 ( )

GMT+8, 2019-2-23 20:18 , Processed in 0.059062 second(s), 14 queries .

Powered by X3.4

© 2001-2017

快速回复 返回顶部 返回列表
汇丰彩票 千禧彩票 易发彩票 平安彩票 汇丰彩票 汇丰彩票 千禧彩票 金誉彩票 千禧彩票 金誉彩票