通用网络采集系统的开发实验

采集,顾名思义,就是把别人网站上的东西,采集到自己的数据库,发布到自己的网站上。

虽然这么做有点不道德,但是从技术上来讲,我们是可以来研究研究的。只要你不用来祸害别人,不给社会造成恶劣的影响,这都是可以理解的。

换句话说,你可以没有车,但是你要有驾照,不要得到别人免费送你一辆车你却开不走 ,就很没有意思了。。。

好了,不废话了。

国庆期间,我出于兴趣,研究了一下采集。

目标是:只要给我一个网站,就可以把主要内容采集下来,把相关图片下载到本地。只能能达到这个目的 就OK了。

先来上2个图:

点击打开链接 查看具体采集效果

下面来解释一下:

整个过程只需两步,

第一步:指定采集的网站集合合规则

第2步:执行采集

最关键的是第一步,因为这是这个采集的源头,具体网址的采集 会根据正则表达式去提取有效的地址。

例如:你设置了采集网站的域名为QQ。com ,那么你首先要设置这个域名,然后在设置具体的有效的地址

的正则规则,

每个网站都包含有标题和具体内容这两项;因此只要设置这两个提取标题的内容,就可以了。至于内容中的

图片,也是靠正则提取,采用数据流的方式进行下载到本地的。

现在到本地以后,你可以创建缩略图或者添加水印 都是可以的

时间: 2024-08-29 15:43:34

通用网络采集系统的开发实验的相关文章

C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 区域管理功能增强(电子商务方向)

由于公司是面向全国服务的.全国各地都有分公司,需要管理到覆盖全国的各种业务,各种业务系统信息系统的数据都需要规范化. 公司开展网络订单功能,在全国范围内实现网络下单.提高工作效率,提高各公司之间的数据交换效率,承接订单的效率,防止沟通交流中的出错率. 通用权限管理系统组件已经实现了内置的电子商务基础数据管理功能,提供各种接口调用,为快速开发大型电子商务系统做个稳定的基础. C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 区域管理功能增强(电子商务方向),布布扣,bubuko.

通用审批流程快速开发系统案例分享

公司组织机构是一个树形架构,先前新加盟公司时都是总部直接添加在某个子公司下,因审计需要,要求通过下面公司申请,逐个角色处理来完成新公司的开通,开发任务最后落到我这里,时间紧,任务重,先前也没接触多少审批流程的开发,好在我们的系统是基于通用权限管理系统的底层来做的开发,角色,权限控制已没什么问题,而且底层也集成有一个审批流程组件,只是先前没多少人使用过,通过与吉日嘎拉老师的沟通,大致了解了这个组件的思想,就像其它系统调用权限功能一样,我只需要完成业务功能的开发,实现审批流的接口即可,经过将近3周的

C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 大数据支持分表优化

公司的短信平台,数据量越来越大了,需要对数据进行一些优化,下面是拆分后的数据库量参考. 新开发的软件模块,必须支持分表,拆表的功能一个数据表里,不适合保存1000万以上的记录新开发的业务模块,能分表的全分表,否则,将来我们无法用其他小型数据库,例如mysql 现在系统的短信已经进行了拆表接着打算把日志也进行拆表确保数据库里,没有庞大的表,随时可以切换数据库 每个人把自己负责的事情,做到自己能力的及至,做到部门能力的及至,公司能力的及至,就很有希望了有时候我说话很随意,但是一般会注意,我说出去的话

C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 数据权限增强、范围权限增强

并不是不想做B\S的管理工具,只是精力实在不够,由于用户权限管理组件是基础组件.所以C\S的也无妨,不会有几个人在乎Oracle,SQLServer是否不b\s的,注重的是功能性能,请大家不要纠结与是否B\S还是C\S上. 实现的方法.设计的界面.数据库结构的设计.底层DLL方法的函数调用,都可以参考,毕竟自己全部实现一个,耗费太多精力,不如拿过来用用参考,按自己的需要修改几下就可以用了,省心省事省力,腰不疼腿不酸,没必要浪费生命. 由于公司的组织机构庞大.网点非常多,所以数据权限的设置也非常复

实验五 Java网络编程及安全 实验报告 20135232王玥

北京电子科技学院(BESTI) 实     验    报     告 课程:Java程序与设计         班级:1352 姓名:王玥 学号:20135232 成绩:             指导教师:娄嘉鹏       实验日期:2015.6.9 实验密级:         预习程度:             实验时间:15:30-18:00 仪器组次:          必修/选修:选修        实验序号:5 实验名称:Java网络编程及安全 实验目的与要求:结对编程,实现客户端和

C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 主管可以看下属的数据

主管可以看下属的数据,这个是经常用到的一个权限,不管是大公司,还是小公司都需要的功能. 通过以下2个方法,可以任意达到想要的效果了,设置简单灵活,还能递归运算下属,有时候简单好用就是硬道理. #region public List<BaseUserEntity> public List<BaseUserEntity> GetListByManager(BaseUserInfo userInfo, string managerId) 按上级主管获取下属用户列表 /// <sum

《DirectShow开发指南》,《DirectShow 实务精选》及《精通网络视频核心开发技术》作者考证

<DirectShow开发指南>,<DirectShow 实务精选>及<精通网络视频核心开发技术>作者考证 今天看见同事在看一本关于DirectShow的书籍,  <精通网络视频核心开发技术>,  我拿过来随时翻了翻,恰好翻到第260页, 看到这样一句话, "关于DirectShow Filter 开发方法更详细的介绍,限于篇幅,笔者在这里就不详细介绍了 有兴趣的的读者可以参考笔者的另外两本书<DirectShow开发指南>和<D

20155201 李卓雯 《网络对抗技术》实验一 逆向及Bof基础

20155201 李卓雯 <网络对抗技术>实验一 逆向及Bof基础 一.实践目标 本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用foo函数,foo函数会简单回显任何用户输入的字符串. 该程序同时包含另一个代码片段,getShell,会返回一个可用Shell.正常情况下这个代码是不会被运行的.我们实践的目标就是想办法运行这个代码片段.我们将学习两种方法运行这个代码片段,然后学习如何注入运行任何Shellcode. 三个实践内容如下: 手工修改可执行文

20155231 邵煜楠《网络对抗技术》实验一 PC平台逆向破解

20155231 邵煜楠<网络对抗技术>实验一 PC平台逆向破解 实验内容 直接修改程序机器指令,改变程序执行流程: 通过构造输入参数,造成BOF攻击,改变程序执行流: 注入Shellcode并执行. 实验步骤 一: 下载目标文件pwn1,反汇编 利用 objdump -d pwn1 对pwn1进行反汇编: 用vi pwn1打开pwn1: 利用%!xxd将文件转换成16进制显示,利用/e8 d7ff ffff进行搜索将d7改为c3(计算"0804847d(getshell)-0804