C#写爬虫,版本V1.0

    之前看了Sql Server中的基本数据类型,发现image这个类型还是比较特殊的。

于是乎就做了一个将图片以二进制流形式存储的程序http://www.cnblogs.com/JsonZhangAA/p/5568575.html,现在如果我想批量ed存储网上一个网站的图片,难道我要手写n多地址吗?显然这是不可取的,针对这种情况,就用C#写了一个简单的爬虫,我们所爬的对象是天文网http://www.tianwenwang.cn/

程序的原理是利用WebRequest和WebResponse来相应网站(不懂,只能这样说0.0),而后利用StreamWrite将网站的源文件存储到txt文本文件中,这是我们可以发现一个

现象,图片地址都是类似于http://p.tianwenwang.cn/upload/150318/68181426648163.jpg!list.jpg,http://p.tianwenwang.cn/upload/150312/58341426094069.jpg!list.jpg这种的,于是可以利用正则表达式来将里面的http:全部取出,放到一个字符串数组中,最后就是判断地址时候包含典型的jpg,gif等图片类型后缀了(V1.0最大的缺陷),如果包含就将其存储到数据库中。

后台代码如下:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
using System.Windows.Forms;

namespace 网络爬虫
{
    public partial class Form1 : Form
    {
        private static string[] getLinks(string html)
        {
            const string pattern = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
            Regex r = new Regex(pattern, RegexOptions.IgnoreCase); //新建正则模式
            MatchCollection m = r.Matches(html); //获得匹配结果
            string[] links = new string[m.Count];

            for (int i = 0; i < m.Count; i++)
            {
                links[i] = m[i].ToString(); //提取出结果
            }
            return links;
        }
        private static bool isValiable(string url)
        {
            if (url.Contains(".jpg") || url.Contains(".gif")||url.Contains(".png"))
            {
                return true; //得到一些图片之类的资源
            }
            return false;
        }
        private static void savePicture(string path)
        {
            DataClasses1DataContext db = new DataClasses1DataContext();
            Uri url = new Uri(path);
            WebRequest webRequest = WebRequest.Create(url);
            WebResponse webResponse = webRequest.GetResponse();

            if (isValiable(path))//判断如果是图片,就将其存储到数据库中。
            {
                Bitmap myImage = new Bitmap(webResponse.GetResponseStream());

                MemoryStream ms = new MemoryStream();
                myImage.Save(ms, System.Drawing.Imaging.ImageFormat.Jpeg);
                var p = new pictureUrl
                {
                    pictureUrl1 = ms.ToArray()
                };
                db.pictureUrl.InsertOnSubmit(p);
                db.SubmitChanges();
            }

        }
        public Form1()
        {
            InitializeComponent();
        }

        private void button1_Click(object sender, EventArgs e)
        {
            string rl;
            string path = this.textBox1.Text;
            Uri url = new Uri(path);
            WebRequest webRequest = WebRequest.Create(url);
            WebResponse webResponse = webRequest.GetResponse();
            Stream resStream = webResponse.GetResponseStream();
            StreamReader sr = new StreamReader(resStream, Encoding.UTF8);
            StringBuilder sb = new StringBuilder();
            while ((rl = sr.ReadLine()) != null)
            {
                sb.Append(rl);
            }
            FileStream aFile = new FileStream("../../txt.txt", FileMode.OpenOrCreate);
            StreamWriter sw = new StreamWriter(aFile);//将网页存储到了txt文本文件中
            sw.WriteLine(sb.ToString());
            sw.Close();
            string[] s;
            s = getLinks(sb.ToString());
            int i = 0;
            foreach (string sl in s)
            {
                i++;
                savePicture(sl);
            }
        }
    }
}

本版本只能对类似于天文网的这类网站进行爬虫,我会后续升级爬虫,争取做出一个通用的爬虫O(∩_∩)O~!

时间: 2024-10-12 18:32:52

C#写爬虫,版本V1.0的相关文章

wzplayer for ios 针对(mms)优化版本V1.0

wzplayer for ios针对mms优化版本发布. 1.支持mms,http,rtmp,rtsp等协议 2.支持全格式 下载地址:http://www.coolradio.cn/WzPlayer.ipa 更强大的,请使用tlplayerhttp://blog.csdn.net/tigerleap/article/details/19007057 联系方式:[email protected] QQ:514540005 版权所有,禁止转载. 发布自:http://blog.csdn.net/t

促进客户转化,提高客单价!酷客多小程序发布版本V1.0.9!

商户和企业主的又一次福音!酷客多小程序新零售o2o商城系统酷爱用户,为了追求极致的用户体验,没日没夜地沉浸于新功能的开发,经过一番努力,新功能终于上线啦! 此次版本迭代,在原有功能基础上做了大幅提升,板块明了,操作简单.这次功能,知道你们都很着急,闲话不说,咱们,开八! 此次版本主要新增了新增优惠券.模板切换.营销插件快捷入口三个模块 1.优惠券 通过前台页面点击进入到“领券中心”,就会出现领券中心的页面,领取相关优惠券. 新增优惠券模板,可以促进客户转化,轻松提高客单价 在这里可以对优惠券进行

.NET考试系统V1.0.0总结

考试系统.NET版本V1.0.0在为期68天后,终于完成了.特此总结一下,主要说说技术.团队合作.UI设计方面,以此给自己一个总结,通过V1.0.0版本,让自己站的更高.看的更远. 技术方面: EF: 整个项目也EF为框架,采用ModelFirst下的两种方式来映射数据库,前期,在PD中设计好实体,转换成数据库,然后倒入SQLServer中,使用ModelFirst中的采用数据库更新到模型的方式,建立模型,接来下来的更新数据库的时候,采用模型更新到数据库的方式更新数据库,这样做的好处是避免了在E

C#写爬虫,版本V2.0

这个版本主要是以百度图片为对象,对其进行爬虫操作,实现了最基本的下载功能,但是缺陷非常多,日后还会对其进行改进. 打开百度图片,同时打开开发者工具,我们会发现,百度图片是通过如下的一段ajax来加载图片的. http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=146642

代码之间-论文修改助手v1.0版本发布

论文查重,是每个毕业生都要面临的一个令人头疼的问题,如果写论文不认真,很可能导致查重红一大片. 之前有帮助一些朋友修改论文降低重复率,做了一些工作后发现,国内的查重机构,如知网.维普等,大多数是基于关键字检索,如果发现某一段文字中里面关键字重合过多,就认定为抄袭. 改论文降低重复率是有一定套路的,所以我开发了这样一个软件,能够自动的将文字表述进行变换,从而帮助你快速的对你的论文进行降重,避免绞尽脑汁的去思考怎么改写. 使用方法: 1. 在待修改原文中输入待修改的句子(一般是查重报告中标红的位置)

社会单位消防安全户籍化管理系统——半自动提交V1.0版本

社会单位消防安全户籍化管理系统——半自动提交V1.0版本 首先先上代码,开发这个小程序其实是用来帮助同事完成一项每天都做的繁琐事件,以往需要花费十分钟做这件事情,现在就是傻瓜式,点几下鼠标就好了.本来想写成每天自动化定时执行任务,但使用此小程序的同事已离职,不再使用这项功能了,也就懒得再继续更新维护了. 这个小程序原理很简单,就是利用C#WebBrowser控件进行提交内容. 可能用javascript编写会更快吧,编写的时候,正好在练习使用WebBrowser控件. 编程嘛,在没有强制要求的时

主流区块链技术特点及Fabric V0.6&V1.0版本特点

声明:文章内容来源于网络. 一.主流区块链技术特点 二.Hyperledger的fabric V0.6总体架构: 对应的0.6版本的运行时架构: 0.6版本的架构特点是: 结构简单: 应用-成员管理-Peer的三角形关系,主要业务功能全部集中于Peer节点:    架构问题:由于peer节点承担了太多的功能,所以带来扩展性.可维护性.安全性.业务隔离等方面的诸多问题,所以0.6版本在推出后,并没有大规模被行业使用,只是在一些零星的案例中进行业务验证: 三.Hyperledger的fabric V

自己动手写计算器v1.0

今天突发奇想,想着看了还几个设计模式了,倒不如写点东西来实践它们.发现计算器这种就比较合适,打算随着设计模式的学习,会对计算器不断的做改进. 包括功能的增加和算法的改进.初学者难免犯错,希望大家不吝指教. 计算器V1.0:主要实现了计算器最常见的加减乘除功能,同时还有一个特殊功能,例如:我们执行完1+2后,如果点击等号,会执行加法运算输出结果.但我们如果点击的是运算符(如-),那么不仅会执行加法运算,还会将-号放置到执行结果后,表示这次执行的将会是减法运算. 代码:Operator类负责使用简单

江中微型统计分析软件V1.0版本完成

中文名称:江中微型统计分析软件 英文名称: 项目名称:JXUTCMMSAS 项目地址:保密 在研究生最后历时1年的时间里,完成了江中微型统计分析软件V1.0,后续还在不断更新中,将自己的改进算法.机器学习中的常用算法全部集成到该软件中,并通过对外提供调用接口,提供可视化界面,立志让其成为一款普通人可用.机器学习算法研究者调用的软件,让算法研究者们,不需要再重新做重复工作,着眼于算法本身,在已有基础上研究. 1.开发环境 MCR——项目中调用到MATLAB2014A(32bite)的MCR环境的j