本人第一个开源代码,NETSpider 网络蜘蛛采集工具

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。
软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.
NETSpider采摘当前提供的主要功能如下:

1. 多任务多线程数据采集,支持POST方式(待定);
2. 可采集Ajax页面;
3. 支持Cookie,支持手工登录采集数据;
4. 支持采集事务;
5. 支持数据自动及手工导出,导出格式为:文本、Excel、Access、MSSql、Mysql等;
6. 支持在线发布数据;
7. 支持导航网址的采集,导航深度不限;
8. 支持自动翻页;
9. 支持文件下载,可以采集图片、Flash及其他文件;
10. 支持采集结果数据的加工,包括替换、附前缀后缀、截取等操作,支持正则;
11. 采集网址定义不仅支持基本参数定义,也可外接字典数据作为网址参数,进行数据采集;
12. 支持一个任务多实例运行;
13. 提供计划任务,计划任务支持NETSpider采集任务、外部可执行文件任务、数据库存储过程任务(还在开发中);
14. 计划任务执行周期支持每天、每周及自定义运行间隔;最小单位为:半小时;
15. 支持任务触发器,即可在采集任务完成后,自动触发执行其他任务(包括可执行文件或存储过程)。
16. 完善的日志功能:系统日志、任务执行日志、出错日志等等;

17. 系统提供MINI浏览器可用于捕获Cookie或POST数据;

NETSpider采集器并不限制您是否商用此软件,源码完全开放,

===================以下为更新内容===================================

1. NETSpider于2014年10月1日开放

相关源码下载:http://git.oschina.net/kingkoo1985/NETSpider/

1.目前这个版本还有很多的验证未做处理,没有时间(花了两周的样子写成这样子),所以添加的时候请按规定填写数据

2.还有部分功能未实现.等有空我会继续完善的

时间: 2024-11-02 19:49:06

本人第一个开源代码,NETSpider 网络蜘蛛采集工具的相关文章

个人第一个开源分布式项目distributeTemplate的实现三 网络通讯netty传输大文件

今天 我将讲讲网络通讯,这里我初始版本 由于采用的事Netty框架  所以 这里讲网络Netty在我们这里是怎么使用的,下周开始添加rpc lucene内容了 实现之后的0.2 0.3版本,后面将会去掉netty依赖 采用原生的NIO2 (aio) 异步非阻塞方式 实现自己网络通讯,也就是说 这部分可能会实现一个简单的但是比netty精简高效的网络框架,后期做出来 可能会单独开一个分支开源出来,netty说白了 就是 事件驱动 以及 NIO 加一些协议 以及 异常 处理,废话不多说了. 我最近

网络爬虫(网络蜘蛛)之网页抓取

现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎.资讯采集.舆情监测等等,诸如此类.网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取.网页跟踪.网页分析.网页搜索.网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不是一朝一夕便能完全掌握且熟练应用的,对于作者来说,更无法在一篇文章内就将其说清楚.因此在本篇文章中,我们仅将视线聚焦在网络爬虫的最基础技术--网页抓取方面. 说到网页抓取,往往有两个点是不得不说的,首

个人第一个开源分布式项目distributeTemplate的实现二 分布式配置以及上下文的维护同步

我们实现分布式 也是按照 这样一步一步来的,首先是公用的资源对象,第一个必须的公用资源 对象是配置,这配置交给用户外部填写 手动配置 并能维持同步 更新 所以需要一个配置对象 维护在内存里面,需要事件驱动监听配置文件的变化情况 ok下面来 看看代码是怎么做的 ,首先 配置 有多重配置方式 ini conf prop xml 各种方式本质上 我们分布式就是要各台主机 自己所在的节点 都能知道我在网络上情况,或者所可以找到像zookeeper 只要知道或者找到了 才能进行以后的通讯同步 我们为了能够

iOS流行的开源代码库

本文介绍一些流行的iOS的开源代码库 1.AFNetworking 更新频率高的轻量级的第三方网络库,基于NSURL和NSOperation,支持iOS和OSX.https://github.com/AFNetworking/AFNetworking 2.GPUImage 图像处理库,基于OpenGL ES,图像处理效率高.https://github.com/BradLarson/GPUImage 3.Masonry 自动布局库.https://github.com/SnapKit/Mason

C++开源代码项目汇总

Google的C++开源代码项目 v8  -  V8 JavaScript EngineV8 是 Google 的开源 JavaScript 引擎.V8 采用 C++ 编写,可在谷歌浏览器(来自 Google 的开源浏览器)中使用.V8 根据 ECMA-262 第三版中的说明使用 ECMAScript,并在使用 IA-32 或 ARM 处理器的 Windows XP 和 Vista.Mac OS X 10.5 (Leopard) 以及 Linux 系统中运行.V8 可以独立运行,也可以嵌入任何

GitHub + VSTS 开源代码双向同步

GitHub已经是全球开源代码的大本营了,通过以下统计你可以看到仅仅javascript在github就有超过32万个活动的repo.很多开发人员都会把自己的一部分代码分享到github上进行开源,一方面可以提高自己在编程领域的知名度,也可以吸引其他的开发人员帮助你一起改进,当然还可以认识更多的朋友,要不怎么说github其实是个交友网站呢. 但是github上免费的repo只能是公开的,对于一些我们不希望完全开源的项目,就没有办法免费分享了,当然你可以付费升级到专业版,这样就可以托管私有rep

探讨—设备商应当如何使用开源代码

个人想法: (一)不应当做的事 1. 不应当把开源代码直接包装成产品. 2. 不应当把开源代码做些修改后包装成产品. 因为这样做的话,团队成员可能难以消化开源代码,从而导致遇到故障时摸不着头脑. 为什么难以消化,因为不是自己写的代码. 另外,开源代码的演进不受自己控制,可能一个版本一个大变样. 假设设备商在2.0版本的某个函数f1中加了点代码,等3.0版本出来时,发现3.0版本代码变化巨大,代码中根本没有f1这个函数了. f1的功能,被拆散到若干个其他函数中去了.这样的话,商备商的版本跟踪维护人

android studio 打开github开源代码

1.最近下载的开源代码全是github来的,一直用eclipse开发,对于android studio来说是全新的 2.在eclipse导入一个工程那是so eassy, import选择一下就可以. 3.到了android studio里面,import 那就费多了. 导入几次都跟死了一样,只看到进度条动,其实Android Studio是在下载文件Gradle 尝试: 全新建一个Hello工程,搞定,没有任何问题,编译成功 工程的目录就是上面所示 打开工程,发现有几个地方跟下载的github

我的第一个开源控件-DragGridView

我的第一个开源控件出炉了,希望各个小伙伴给个star,支持下.项目地址 1. 前言 由于项目需要,要做一个类似腾讯视频,频道管理,拖拽排序的效果.这个控件是在原地址 之上改造出来的.先看下效果图. 1.0版本的效果图 由于我电脑是ubuntu,没法弄gif,等星期一到了公司上gif吧,不过,github上有apk,可以弄下来看看, 2. 实现思路 2.1 如何响应长按事件 我们虽然可以给view设置监听器,但是我们需要频繁的调用GridVIew的一些方法,显然,那样做是不合适的.于是,我们在on