分享一个近期写的简单版的网页采集器

分享一个近期写的简单版的网页采集器

功能特点

1、可通过配置,保存采集规则。

2、可通过采集规则,进行数据采集。

3、可分页,分关键字,进行采集。

4、可保存数据至数据库,文本中。

...........

功能还比较简单,喜欢深入的可以继续深入下去,暂时还没有登录的功能,因为登录功能涉及到的范围比较广,待日后慢慢研究后再开发。

我先上个图让大家一睹为快吧:

首先看看页面,我们要采集这个网站的文章

接下来,首先是查找分页,获得分页里面的文章链接,接着查找内容页需要采集的字段,生成规则,进行采集。

最后,可以开始采集了,感兴趣的你,可以试试....

怎么样,有点意思吧?

我们再来看看源码结构,如下图,分层采用的是简单的业务+数据层(Biz)、模型层(Model)、公共设施层(Framework),因为是小项目,所以没有过多的分层

Model层 使用的是EF的CodeFirst 来生成数据库表和字段的,其他不多讲了,自己体会吧。

下载源码

时间: 2024-10-12 14:34:04

分享一个近期写的简单版的网页采集器的相关文章

分享一个自己写的简单的自动更新插件

自动更新插件通常需要三部分 1.配合需要升级的程序的一个dll 2.自动升级程序 3.打包程序 第一部分 配合主程序的dll 在这个升级程序中我将配合主程序用来校验版本号的代码封装在AutoUpdateHelper中,主要包括两个函数,一个是检查版本并自动更新CheckAndUpdate,一个是用来获取当前的版本号GetVersion 第二部分 自动升级程序 升级程序主要的步骤: 1.根据本地的update.xml中的manifest文件的远程地址下载manifest文件 2.根据本地的vers

分享一个自己写的.Net的ORM工具

注册博客园帐号也有好几年了,之前注册帐号主要是为了看别人的文章下载东西的时候方便.从来没有写过什么博客,一直以为只要注册了帐号就可以写博客,最近用到了才发现还得申请一下,于是就申请了博客,算了也不扯这么多没用的了,直接进入主题吧! 网上开源的ORM工具也不少,开源中国上就有不少,很多都下载试用过,不过感觉用起来都不是很方便,园子里面也有不少人分享自己写的ORM工具,用过一个叫 MySoft.Data 的ORM工具,感觉里面的链式调用函数的写法不错,但是用起来感觉也有些不如意的地方,于是某个周末的

分享一个自己写的工具Sql2Json

前言 最近在维护一个公司之前自己开发的项目,项目使用的了WCF作为组件之间数据传输,可是在优化代码的过程当中发现了一些问题,最明显也最有必要修改的就是返回值是DataSet和DataTable的Function. 众所周知在WCF的Function中返回DataTable,DataSet对于性能有相当大的影响的,因为在Soap协议序列化为XML的时候会附加上很多的属性,记得一个最简单的说明是我们本想返回水果“Object”,但是DataSet却返回来一个“大树”. 于是想的最简单的方法就是在不修

分享一个C++写的远程控制木马:Gh0st_VS2010直接编译

经过修改VS2010已经可以直接编译了,之前做了360等主流的免杀现在已经失效了 放出代码给需要的朋友学习,请勿用作非法用途 代码下载地址如下: 链接: http://pan.baidu.com/s/1sjwhh8L  密码: rc6f 编译后有3个文件,运行Gh0st.exe就行了,运行以后配置好,可以生成被控端,运行以后自动删除自己的exe,开机启动服务等--至于使用教程百度很多,自己找一找吧 解压密码在: http://www.bcwhy.com/thread-21884-1-1.html

快到七夕了,分享一个C写的exe,可以直接点击运行的,效果看下图

原文:快到七夕了,分享一个C写的exe,可以直接点击运行的,效果看下图 源代码下载地址:http://www.zuidaima.com/share/1550463688690688.htm 不要玫瑰.不要礼物,程序员有程序员表达爱情的方式

分享一个前辈写的table的一些用法和注意事项

表格(table)是一直以来长期被大家使用的标签,直到现在还是在用,不过呢因为现在的网站重构,建议大家不要表格(table)来布局而很多朋友误以为用表格(table)就是所谓的不标准了,其实不然,表格(table)是一个重要元素. 前不久为了寻找表格(table)所包含的主要标签,一直在寻找着,找到当然就是跟大家一起来分享一下. 表格标签主要包含的标签有table.caption.th.tr.td.thead.tfoot.tbody.col.colgroup,针对每个的介绍如下: <table>

一个PHP写的简单webservice服务端+客户端

首先是服务端,服务端有一个主要的class组成:apiServer.php <?php /** * apiServer.php * * webservice主类 * * @filename apiServer.php * @version v1.0 * @update 2011-12-22 * @author homingway * @contact [email protected] * @package webservice */ define('API_AUTH_KEY', 'i8XsJb

(转载)分享一个昨天写的,3GQQ登录及取回sid的php源代码,内涵post/get访问网页的源代码。

<?php //3gQQ登录,1qq,2密码,3返回sid,4返回验证码地址. function qqlogin($qq,$mm,&$returnsid,&$yzmurl){ $ym=get('http://pt.3g.qq.com/g/s?aid=nLogin'); $sid=text_midtext($ym,'sid=','&'); $vdata=text_midtext($ym,'?vdata=','"'); $submitarr=array( 'login_

分享一个自己写的基于TP的关系模型(四)

修复分页BUG,原有代码查询到最后一页就一只查询最后一页 $this->nowPage = $this->nowPage>0 ? $this->nowPage : 1; $this->maxPage = ceil($this->total/$this->rows); //$this->nowPage > $this->maxPage and $this->nowPage = $this->maxPage; $this->firs