搜易达软件官网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1110|回复: 0
打印 上一主题 下一主题

保所有Spider的作业不重复,Spider都有自己的抓取范围

[复制链接]
跳转到指定楼层
楼主
发表于 2017-3-5 08:52:43 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
要确保所有Spider的作业不重复,就要求每个Spider都有自己的抓取范围,也就是说每个Spider都会只抓取指定类型的网页,这里就要看搜索引擎是如何对网页进行分类的了,常规网页的分类方法有三种,第一种是按照优秀站点,普通站点,垃圾站点,降权站点和屏蔽(被K)站点等站点质量等级分类,第二种是按照网站汇丰彩票,网站目录页,网页内容页,网站专题页,视频,图片,新闻,行业资料,其他类型的网络文件(PDF,WORD,EXCEL等)等网页类型分类,第三种是按照站点或网页内容所在行业分类,在真正的Spider系统设计中,为了减少搜索引擎和被抓取站点服务器之间的握手次数(影响抓取效率的重要因素),站点级别相关的分类应该是被优先使用的。
分享到:  QQ好友和群QQ好友和群
收藏收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

|小黑屋|手机版|Archiver|搜易达软件论坛 ( )

GMT+8, 2019-2-23 20:06 , Processed in 0。056515 second(s), 14 queries 。

Powered by X3.4

© 2001-2017

快速回复 返回顶部 返回列表
千禧彩票 金誉彩票 千禧彩票 千禧彩票 千禧彩票 汇丰彩票 汇丰彩票 金誉彩票 平安彩票 金誉彩票