【源码】初探C#爬虫，持续更新中。。。

最近看到园子里有人用python做的爬虫软件并且上传的源码，苦于不懂python，便想着用C#也实现一个简易的爬虫软件。于是昨晚花了一个多小时的时间实现了一个简单的爬虫软件，功能十分简单，但是觉得还是想分享出来。。。后续楼主还会把功能继续完善下去。。

废话不多说，直接上图上码！

其实代码很简单：

  public string CreateWeb(string url)
        {

            StringBuilder sb = new StringBuilder();
            //抓取网页
            WebRequest request = WebRequest.Create(url);
            WebResponse response = request.GetResponse();
            //读取文件流
            StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("utf-8")); //reader.ReadToEnd() 表示取得网页的源码
            //FileStream fs = new FileStream("~/baidu.html", FileMode.OpenOrCreate);
            string strhtml = reader.ReadToEnd();
            //正则匹配网站的图片标签
            string Rxg = @"<img\b[^<]*(?:(?!<\/img>)*)";
            //匹配出图片标签的集合
            MatchCollection mc = Regex.Matches(strhtml, Rxg);
            for (int i = 0; i < mc.Count; i++)
            {
                sb.Append(mc[i]);

            }
            //返回图片标签HTML输出
            return sb.ToString();
        }

总结：其实爬虫的话无非是抓取页面，然后通过一些规则匹配到页面里面的元素。

源码：SuperSearch.rar

作者： LiuHuaTao（ LiuHuaTao‘s Blog on 博客园）
出处：http://www.cnblogs.com/Lhuatao/
本作品由 LiuHuaTao 创作，采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。欢迎转载，但任何转载必须保留完整文章，在显要地方显示署名以及原文链接。如您有任何疑问或者授权方面的协商，请给我留言。

时间： 2024-09-30 12:40:40

【源码】初探C#爬虫，持续更新中。。。的相关文章

GNU GRUB 2.00 源码分析笔记，持续更新

前言很多运维类书籍或文章仅从系统管理者的角度讲解了 grub 的安装以及使用, 本篇博文则从 gnu grub 2.00 的源码入手,从开发者,以及系统底层运行机制的角度,分析 grub 是如何作为跨平台的"全面统一的引导加载程序",来引导操作系统,加载 Linux 内核的过程等等, 部分内容参考了<深度探索 Linux 操作系统>一书中相关的内容(ISBN 978-7-11143901-1 )以及 gnu grub 项目官方站点的文档,并且加入自己分析源码时的笔记. (

Vue源码阅读笔记，持续更新

/ / Vue.js v2.1.3 源码阅读记录使用的文件为使用es2015的本地文件 2018年4月20日 14:06:30 */ 第一章,Vuejs的整体架构 1. 入口入口处使用一个闭包(function (global,factory) {factory()})(this,factory): 其中factory是工厂的意思,它的内部实现是一个工厂函数,其中直接声明的function为私有成员. 2. 生命周期的理解理解vue的生命周期对通读vue源码的效率有较好的帮助,它的生命周期

react native 0.50 源码解析再出发持续更新

1.核心类 1.1 RCTRootView 一个RCTRootView持有一个RCTBridge成员变量 RCTRootView : UIView RCTBridge *bridge; UIViewController *reactViewController; UIView *contentView; UIView *loadingView; 1.2 RCTBridge 一个RCTBridge持有一个RCTCxxBridge成员变量 RCTBridge.h @interface RCTBrid

资源向导之 JOS 计划 #持续更新中# MIT 6.828

JOS 计划 #持续更新中# 童鞋,上网要科学上网,做lab也要科学的做．之前我一上来就做实验,很多资料都不知道．现在打算重新来过方法: 0.xv6源码不要用MIT官网的那份,我的主机是Linux/Ubuntu 14.0各种编译error,我都改的想吐．后来直接用github上别人改好的,直接能跑起来没有编译错误的xv6. 1.按照MIT给出的课程安排表,每一次课的相关lecture必须全部过一遍． 2.要求的课堂作业必须完成,很多时候课程要求的任务是很轻松的,只要修改部分代码就行了．这里我

构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统（1）-前言与目录（持续更新中...）

演示地址帐号:admin 密码:admin123 请不要删除用户避免他人无法体验(文章中已经附带源码,源码开放到17讲下载) 快捷地址(QQ群37509873也有相应的下载): 第2讲源码下载密码:wg0i 最新代码生成器+17讲源码下载密码:n2ji SwfUpload在MVC4下多文件上传密码:0ntz 也可以有偿获取一份最新源码联系QQ:729994997价格500 -------------------------------------------------------

Android 系统中，那些能大幅提高工作效率的 API 汇总（持续更新中...）

前言 "条条大路通罗马."工作中,实现某个需求的方式往往不是唯一的,这些不同实现方式不仅表现在代码质量上,还影响着我们的工作效率.就像,在 Android 系统中,总有那么一些鲜为人知的 API 能够减少我们很多零碎的工作量.于是,就想凭着一些经验,整理一些常用的,找个地方归纳总结,也供日后翻阅. getResources().getIdentifier(String name, String defType, String defPackage) 根据资源名称获取资源 id.正常情况

minidlna源码初探（二）—— SSDP设备发现的大致流程

前言: 之前有专文介绍了minidlna中的UPNP功能,内中介绍其中包含的SSDP(简单发现协议),SOAP(简单对象访问协议)等几个协议(http://blog.csdn.net/sakaue/article/details/19070735).本文将根据minidlna的程序流程,概述SSDP的流程,为下一部分ACE实现做铺垫. 设备发现的大致流程: 首先,根据UPNP的规范: 在设备加入网络,UPnP发现协议允许设备向控制点广告它的服务.它使用向一个标准地址和端口多址传送发现消息来实现.

Polar Code主要研究者的个人主页（持续更新中........）

Polar Code主要研究者的个人主页(持续更新中........) 1. Polar码的编译码,以及List译码算法,都少不了Ido Tal这位大牛. http://webee.technion.ac.il/people/idotal/ 2.ali eslami Electrical & Computer Engineering Dept., Texas A&M University http://people.tamu.edu/~eslami/ 3.Alexios Balatsouk

Servlet源码初探

年底,公司的事情告一段落,就来捣鼓一下这个Servlet源码,为下一步的spingmvc源码初探做准备 1.Servlet接口 public interface Servlet { void init(ServletConfig var1) throws ServletException; ServletConfig getServletConfig(); void service(ServletRequest var1, ServletResponse var2) throws Servlet

【前端】Util.js-ES6实现的常用100多个javaScript简短函数封装合集（持续更新中）

Util.js (持续更新中...) 项目地址: https://github.com/dragonir/Util.js 项目描述 Util.js 是对常用函数的封装,方便在实际项目中使用,主要内容包含:数组类.浏览器类.日期类.函数类.数学类.媒体类.节点类.对象类.字符串类.类型检测类.正则表达式类等内容. 使用方法 1. 引入Bable transpiler以保证支持ES6 <script type="javascript/text" src="./browser