开源爬虫软件汇总

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。

开源爬虫汇总表


开发语言


软件名称


软件介绍


许可证


Java


Arachnid


微型爬虫框架,含有一个小型HTML解析器


GPL


crawlzilla


安装简易,拥有中文分词功能


Apache2


Ex-Crawler


由守护进程执行,使用数据库存储网页信息


GPLv3


Heritrix


严格遵照robots文件的排除指示和META robots标签


LGPL


heyDr


轻量级开源多线程垂直检索爬虫框架


GPLv3


ItSucks


提供swing GUI操作界面


不详


jcrawl


轻量、性能优良,可以从网页抓取各种类型的文件


Apache


JSpider


功能强大,容易扩展


LGPL


Leopdo


包括全文和分类垂直搜索,以及分词系统


Apache


MetaSeeker


网页抓取、信息提取、数据抽取工具包,操作简单


不详


Playfish


通过XML配置文件实现高度可定制性与可扩展性


MIT


Spiderman


灵活、扩展性强,微内核+插件式架构,通过简单的配置就可以完成数据抓取,无需编写一句代码


Apache


webmagic


功能覆盖整个爬虫生命周期,使用Xpath和正则表达式进行链接和内容的提取


Apache


Web-Harvest


运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作,具有可视化的界面


BSD


WebSPHINX


由两部分组成:爬虫工作平台和WebSPHINX类包


Apache


YaCy


基于P2P的分布式Web搜索引擎


GPL


Python


QuickRecon


具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能


GPLv3


PyRailgun


简洁、轻量、高效的网页抓取框架


MIT


Scrapy


基于Twisted的异步处理框架,文档齐全


BSD


C++


hispider


支持多机分布式下载, 支持网站定向下载


BSD


larbin


高性能的爬虫软件,只负责抓取不负责解析


GPL


Methabot


经过速度优化、可抓取WEB、FTP及本地文件系统


不详


Methanol


模块化、可定制的网页爬虫,速度快


不详


C#


NWebCrawler


统计信息、执行过程可视化


GPLv2


Sinawler


国内第一个针对微博数据的爬虫程序,功能强大


GPLv3


spidernet


以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据


MIT


Web Crawler


多线程,支持抓取PDF/DOC/EXCEL等文档来源


LGPL


网络矿工


功能丰富,毫不逊色于商业软件


BSD


PHP


OpenWebSpider


开源多线程网络爬虫,有许多有趣的功能


不详


PhpDig


适用于专业化强、层次更深的个性化搜索引擎


GPL


Snoopy


具有采集网页内容、提交表单功能


GPL


ThinkUp


采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现


GPL


微购


可采集淘宝、京东、当当等300多家电子商务数据


GPL


ErLang


Ebot


可伸缩的分布式网页爬虫


GPLv3


Ruby


Spidr


可将一个或多个网站、某个链接完全抓取到本地


MIT

 

开源爬虫软件汇总,布布扣,bubuko.com

时间: 2024-12-18 09:02:24

开源爬虫软件汇总的相关文章

开源爬虫软件汇总!

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示.虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型.复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎.

基于Python的开源爬虫软件

一.安装Scrapy 导入GPG密钥 sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7 添加软件源 echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee /etc/apt/sources.list.d/scrapy.list 更新包列表并安装scrapy sudo apt-get update && sudo a

开源爬虫汇总表,83款 网络爬虫开源软件

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示.虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型.复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎. 开源爬虫汇总表 开发语言 软件名称 软件介绍 许可证 Java Arachnid 微型爬虫框架,含有一个小型HTML解析器 GPL crawlzilla 安装简易,拥有中文分词功能 Apache2 Ex-Crawler 由守护进程执行,使用数据库存储网页信息

33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家. 爬虫,即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件.聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主

主流开发语言 33 款开源爬虫

原文地址 去年,之前的同事,喜欢看小说,就想自己没事搞个网站,我告诉他,先用爬虫把别人网站的小说下载下来,放到自己的网站里~我同事编码能力很强,学东西相当快,给他大概讲一下,帮他下载个用 http 协议下载网站的程序集(.net)就可以,但是,时不时,Web 会拒绝,后来,我说,http 协议是应用层协议,频繁访问人家 Web,可能会封你的 IP,你要写爬虫,可以干脆用 TCP/IP 网络层协议写~后来,他写熟了,直接用 TCP/IP 协议写的~ 现在想想,爬虫,这么多开源项目,自己写还真是多余

免费开源3D模型设计软件汇总

免费开源3D模型设计软件汇总 3D 打印需要先通过计算机辅助设计(CAD)进行建模,再将建好的3D模型“分割”成逐层的截面,从而指导3D打印机进行逐层打印.因此用于3D打印的3D模 型大都储存或输出成为.stl文件格式.下面就为大家总结目前市场上主要的免费3D建模软件.希望对对3D打印建模感兴趣的朋友们有帮助. 基于网页的3D模型设计软件有: 3d Tin 3D 打印需要先通过计算机辅助设计(CAD)进行建模,再将建好的3D模型“分割”成逐层的截面,从而指导3D打印机进行逐层打印.因此用于3D打

开源资产管理软件-GLPI(9.13)操作手册

1.简介 GLPI是法语Gestionnaire libre de parc informatique的缩写,是一款历史悠久的资产管理软件: GLPI提供功能全面的IT资源管理接口,可以用来建立数据库全面管理IT的电脑,显示器,服务器,打印机,网络设备,电话,甚至硒鼓和墨盒等.提供Helpdesk用户支持平台:联系人,合同,合作商,以及文档的管理:提供资源预定,知识库的管理等功能." 日常工作中偶然接触到GLPI,通过安装部署,配置LDAP,Fusioninventory,OCS Invento

GitHub上史上最全的Android开源项目分类汇总

今天在看博客的时候,无意中发现了@Trinea在GitHub上的一个项目Android开源项目分类汇总,由于类容太多了,我没有一个个完整地看完,但是里面介绍的开源项目都非常有参考价值,包括很炫的界面特效设计.个性化控件.工具库.优秀的Android开源项目.开发测试工具.优秀个人和团体等.可以这样说,每一位Andorid开发人员都能从中找到一个或多个适用自己项目的解决方案,消化吸收并加以利用,可以为自己的APP增色不少.文章最后还列出了部分国外著名Android开发者的信息,包括GitHub地址

中国大陆开源镜像网站汇总

1.互联网企业 百度静态资源公共库 网易开源镜像站 搜狐开源镜像站 阿里云开源镜像 2.高校资源 清华大学TUNA镜像源 厦门大学信息与网络中心开源软件镜像服务 北京理工大学开源软件镜像服务 北京交通大学开源软件镜像 兰州大学开源社区镜像站 3.前端公共库 360网站卫士常用前端公共库 Bootstrap中文网开源项目 参考资料: [1]中国开源镜像站点汇总, Linux Today [2]中国大陆开源镜像站汇总, cnBeta