> 信息中心 >

分布式爬虫如何url去重?

来源:互联网 编辑:刘梓楠

有网友碰到过这样的问题:分布式爬虫如何url去重?,问题详细内容为:

  最近刚接触网络爬虫,写到分布式爬虫的url去重的时候感到很疑惑,网上看到的HashSet、MD5和BloomFilter都是单机上的,集群中难道只能用分布式数据库来检索?还有其他的好办法么,或者已经成熟的框架么?

,我搜你通过互联网收集了相关的一些解决方案,希望对有过相同或者相似问题的网友提供帮助,具体如下:

解决方案1:
你可以用类似分片的方式来解决,比如简单点的通过域名的首字母来切分,某实例只负责a,b,c等,当此实例找到其他域名后,通过mq消息到不同队列(或类似rabbitmq的exchange根据topic进行划分到不同队列),对应字母的服务从指定队列中拉取相关信息后继续你的爬虫过程。 收获园豆:15
解决方案2:
最简单的方法,就是用redis之类的库记录是否已访问过。 复杂点的就是楼上的切分处理 收获园豆:5
解决方案3:
写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。 开发文档参考:http://doc.shenjianshou.cn/ 官方开发者QQ群:342953471

什么叫爬虫技术?有什么作用?

答:1、爬虫技术概述 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能...


请注意,本站信息均收集自互联网,相关信息仅供参考,医疗等重要信息请以正规途径为最终意见,本站不承担任何责任!

www.wosoni.com false 互联网 http://www.wosoni.com/blogcnk/t/jcgif.html report 712 解决方案1:你可以用类似分片的方式来解决,比如简单点的通过域名的首字母来切分,某实例只负责a,b,c等,当此实例找到其他域名后,通过mq消息到不同队列(或类似rabbitmq的exchange根据topic进行划分到不同队列),对应字母的服务从指定队列中拉取相关信息后继续你的爬虫过程。收获园豆:15解决方案2:最简单的方法,就是用redis之类的库记录是否已访问过。复杂点的就是楼上的切分处理收获园豆:5解决方案3:写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲

热门图片