C#实现网页爬虫

HTTP请求工具类(功能:1、获取网页html;2、下载网络图片;):

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;

namespace Utils
{
    /// <summary>
    /// HTTP请求工具类
    /// </summary>
    public class HttpRequestUtil
    {
        /// <summary>
        /// 获取页面html
        /// </summary>
        public static string GetPageHtml(string url)
        {
            // 设置参数
            HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)";
            //发送请求并获取相应回应数据
            HttpWebResponse response = request.GetResponse() as HttpWebResponse;
            //直到request.GetResponse()程序才开始向目标网页发送Post请求
            Stream responseStream = response.GetResponseStream();
            StreamReader sr = new StreamReader(responseStream, Encoding.UTF8);
            //返回结果网页(html)代码
            string content = sr.ReadToEnd();
            return content;
        }

        /// <summary>
        /// Http下载文件
        /// </summary>
        public static void HttpDownloadFile(string url)
        {
            int pos = url.LastIndexOf("/") + 1;
            string fileName = url.Substring(pos);
            string path = Application.StartupPath + "\\download";
            if (!Directory.Exists(path))
            {
                Directory.CreateDirectory(path);
            }
            string filePathName = path + "\\" + fileName;
            if (File.Exists(filePathName)) return;

            // 设置参数
            HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)";
            request.Proxy = null;
            //发送请求并获取相应回应数据
            HttpWebResponse response = request.GetResponse() as HttpWebResponse;
            //直到request.GetResponse()程序才开始向目标网页发送Post请求
            Stream responseStream = response.GetResponseStream();

            //创建本地文件写入流
            Stream stream = new FileStream(filePathName, FileMode.Create);

            byte[] bArr = new byte[1024];
            int size = responseStream.Read(bArr, 0, (int)bArr.Length);
            while (size > 0)
            {
                stream.Write(bArr, 0, size);
                size = responseStream.Read(bArr, 0, (int)bArr.Length);
            }
            stream.Close();
            responseStream.Close();
        }
    }
}

多线程爬取网页代码:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;
using System.Windows.Forms;
using Utils;

namespace 爬虫
{
    public partial class Form1 : Form
    {
        List<Thread> threadList = new List<Thread>();
        Thread thread = null;

        public Form1()
        {
            InitializeComponent();
        }

        private void button1_Click(object sender, EventArgs e)
        {
            DateTime dtStart = DateTime.Now;
            button3.Enabled = true;
            button2.Enabled = true;
            button1.Enabled = false;
            int page = 0;
            int count = 0;
            int personCount = 0;
            lblPage.Text = "已完成页数:0";
            int index = 0;

            for (int i = 1; i <= 10; i++)
            {
                thread = new Thread(new ParameterizedThreadStart(delegate(object obj)
                {
                    for (int j = 1; j <= 10; j++)
                    {
                        try
                        {
                            index = (Convert.ToInt32(obj) - 1) * 10 + j;
                            string pageHtml = HttpRequestUtil.GetPageHtml("http://tt.mop.com/c44/0/1_" + index.ToString() + ".html");
                            Regex regA = new Regex("<a[\\s]+class=\"J-userPic([^<>]*?)[\\s]+href=\"([^\"]*?)\"");
                            Regex regImg = new Regex("<p class=\"tc mb10\"><img[\\s]+src=\"([^\"]*?)\"");
                            MatchCollection mc = regA.Matches(pageHtml);
                            foreach (Match match in mc)
                            {
                                int start = match.ToString().IndexOf("href=\"");
                                string url = match.ToString().Substring(start + 6);
                                int end = url.IndexOf("\"");
                                url = url.Substring(0, end);
                                if (url.IndexOf("/") == 0)
                                {
                                    string imgPageHtml = HttpRequestUtil.GetPageHtml("http://tt.mop.com" + url);
                                    personCount++;
                                    lblPerson.Invoke(new Action(delegate() { lblPerson.Text = "已完成条数:" + personCount.ToString(); }));
                                    MatchCollection mcImgPage = regImg.Matches(imgPageHtml);
                                    foreach (Match matchImgPage in mcImgPage)
                                    {
                                        start = matchImgPage.ToString().IndexOf("src=\"");
                                        string imgUrl = matchImgPage.ToString().Substring(start + 5);
                                        end = imgUrl.IndexOf("\"");
                                        imgUrl = imgUrl.Substring(0, end);
                                        if (imgUrl.IndexOf("http://i1") == 0)
                                        {
                                            try
                                            {
                                                HttpRequestUtil.HttpDownloadFile(imgUrl);
                                                count++;
                                                lblNum.Invoke(new Action(delegate()
                                                {
                                                    lblNum.Text = "已下载图片数" + count.ToString();
                                                    DateTime dt = DateTime.Now;
                                                    double time = dt.Subtract(dtStart).TotalSeconds;
                                                    if (time > 0)
                                                    {
                                                        lblSpeed.Text = "速度:" + (count / time).ToString("0.0") + "张/秒";
                                                    }
                                                }));
                                            }
                                            catch { }
                                            Thread.Sleep(1);
                                        }
                                    }
                                }
                            }
                        }
                        catch { }
                        page++;
                        lblPage.Invoke(new Action(delegate() { lblPage.Text = "已完成页数:" + page.ToString(); }));

                        if (page == 100)
                        {
                            button1.Invoke(new Action(delegate() { button1.Enabled = true; }));
                            MessageBox.Show("完成!");
                        }
                    }
                }));
                thread.Start(i);
                threadList.Add(thread);
            }
        }

        private void button2_Click(object sender, EventArgs e)
        {
            button1.Invoke(new Action(delegate()
            {
                foreach (Thread thread in threadList)
                {
                    if (thread.ThreadState == ThreadState.Suspended)
                    {
                        thread.Resume();
                    }
                    thread.Abort();
                }
                button1.Enabled = true;
                button2.Enabled = false;
                button3.Enabled = false;
                button4.Enabled = false;
            }));
        }

        private void Form1_FormClosing(object sender, FormClosingEventArgs e)
        {
            foreach (Thread thread in threadList)
            {
                thread.Abort();
            }
        }

        private void button3_Click(object sender, EventArgs e)
        {
            foreach (Thread thread in threadList)
            {
                if (thread.ThreadState == ThreadState.Running)
                {
                    thread.Suspend();
                }
            }
            button3.Enabled = false;
            button4.Enabled = true;
        }

        private void button4_Click(object sender, EventArgs e)
        {
            foreach (Thread thread in threadList)
            {
                if (thread.ThreadState == ThreadState.Suspended)
                {
                    thread.Resume();
                }
            }
            button3.Enabled = true;
            button4.Enabled = false;
        }
    }
}

截图:

时间: 2024-08-28 03:44:37

C#实现网页爬虫的相关文章

网页抓取:PHP实现网页爬虫方式小结

来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单. 一.Ganon 项目地址: http://code.google.com/p/ganon/ 文档: http://code.google.com/p/ganon/w/list 测试:抓取我的网站首页所有class属性值是focus的

Python天气预报采集器 python网页爬虫

这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显.本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了 爬虫简单说来包括两个步骤:获得网页文本.过滤得到数据. 1.获得html文本.  python在获取html方面十分方便,寥寥数行代码就可以实现需要的功能. def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return

网页爬虫--scrapy入门

本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程 所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:).通常适用于需要大量网页信息的场合. 爬取网页的流程为:访问初始url -> 获得返回的网页,从这个网页中得到新的url并放入待爬队列 -> 访问新的url-> ...依次循环.整体上来看就是一个广度优先的过程,当然,新的url也不一定非要从返回的网页中获得. 一个简单的网页

正则表达式--网页爬虫

1 /* 2 * 网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据. 3 * 4 * 爬取邮箱地址. 5 * 6 */ 7 public class RegexTest2 { 8 9 /** 10 * @param args 11 * @throws IOException 12 */ 13 public static void main(String[] args) throws IOException { 14 15 16 List<String> list = getMail

Python 网页爬虫

一.要解决的问题 需要解决的是根据自定义的关键词自动搜索google学术,解析搜索到的网页,下载所有相应的论文的PDF链接.这里我们采用Python来实现, 二.Python入门 python 自动缩进:shift+table整块向左缩进,table向右缩进,在修改整块代码时很有用比如将函数变成单独执行时. 了解python的变量,包,函数定义等 三.网页知识 3.1 浏览网页的过程 打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,

JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫

JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫 我们接着来说网络编程,TCP 一.自定义服务端 我们直接写一个服务端,让本机去连接,可以看到什么样的效果 package com.lgl.socket; import java.io.IOException; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket; publ

cURL 学习笔记与总结(2)网页爬虫、天气预报

例1.一个简单的 curl 获取百度 html 的爬虫程序(crawler): spider.php <?php /* 获取百度html的简单网页爬虫 */ $curl = curl_init('http://www.baidu.com'); //resource(2, curl) curl_exec($curl); curl_close($curl); 访问该页面: 例2.下载一个网页(百度)并把内容中的百度替换成'PHP'之后输出 <?php /* 下载一个网页(百度)并把内容中的百度替换

多线程网页爬虫 python 实现

采用了多线程和锁机制,实现了广度优先算法的网页爬虫. 对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的:         1.从给定的入口网址把第一个网页下载下来         2.从第一个网页中提取出所有新的网页地址,放入下载列表中         3.按下载列表中的地址,下载所有新的网页         4.从所有新的网页中找出没有下载过的网页地址,更新下载列表         5.重复3.4两步,直到更新后的下载列表为空表时停止 python实现代码如下: #!/usr/b

Python网页爬虫学习

我总结的了ython网页爬虫的笔记,使用BeautifulSoup和requests两个模块实现,能够爬取百度贴吧帖子图片的功能.里面还包括的了两个模块具体的使用讲解,还包含了详细的注释.有问题请在GIT留言或者邮箱联系 可以直接去Github下载: 下载地址: https://github.com/liangz0707/WebCrawler git地址:[email protected]:liangz0707/WebCrawler.git

写网页爬虫遇到标签匹配难题

写网页爬虫遇到标签匹配难题技术 maybe yes 发表于2015-02-02 13:22 原文链接 : http://blog.lmlphp.com/archives/78  来自 : LMLPHP后院 前段时间写优化网页节点的程序时,遇到了标签匹配的难题.在匹配图片标签时,由于标签里面的 JavaScript 代码中含有大于号">"导致无法匹配完整的标签内容.将这样的问题分享出来,不知道像百度啊他们的爬虫是如何处理这样的问题的.请看下面的代码: <!-- HTML DO