基于WebBrowser 的爬虫程序

WebBrowser的属性和事件
WebBrowser 如何跳转页面
1. web.Navigate("");
WebBrowser 如何循环跳转获取页面内容

bool loading = true;   //该变量表示网页是否正在加载.

        string html = string.Empty;

        WebBrowser browser = new WebBrowser();

        public void GetHtml(string[] urls)

        {            

            browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);

            foreach (string url in urls)

            {

                loading = true;  //表示正在加载

                  browser.Navigate(url);

                while (loading)

                {

                    Application.DoEvents();//等待本次加载完毕才执行下次循环.

                }

            }

        }

        void browser_Navigated(object sender, WebBrowserNavigatedEventArgs e)

        {

            html = browser.DocumentText;  //获取到的html.

            loading = false;//在加载完成后,将该变量置为false,下一次循环随即开始执行.

        }

完整代码下载地址

时间： 2024-11-07 13:39:43

基于WebBrowser 的爬虫程序的相关文章

基于Python的urllib2模块的多线程网络爬虫程序

1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcessor(urllib2.BaseHandler): 7 """A handler to add gzip capabilities to urllib2 requests ""

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

原文链接: Jack-Cui,http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 1 前言近期,有些朋友问我一些关于如何应对反爬虫的问题.由于好多朋友都在问,因此决定写一篇此类的博客.把我知道的一些方法,分享给大家.博主属于小菜级别,玩爬虫也完全是处于兴趣爱好,如有不足之处,还望指正. 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于

基于DevExpress的Winform程序安装包的制作

在我们做系统开发的时候,都会面临一个安装包制作的问题,如何把我们做好的系统,通过安装包工具整合成一个安装包给客户进行安装.安装包的优势就是一步步安装就可以了,不用复制一大堆文件给客户,还怕缺少那个文件导致系统运行出错.本文主要介绍基于DevExpress的Winform程序安装包的制作内容,包括VS2010和VS2013/V2105的不同处理方式. 我们知道,VS2010是最后一个可以使用微软安装包制作工具的VS版本了,所以后面VS2012/2013/2015版本都需要使用第三方安装包制作工具,

用Java写的爬虫程序

这是一个web查找的根本程序,从命令行输入查找条件(开端的URL.处置url的最大数.要查找的字符串), 它就会逐一对Internet上的URL进行实时查找,查找并输出匹配查找条件的页面. 这个程序的原型来自<java编程艺术>, 为了非常好的剖析,站长去掉了其间的GUI有些,并稍作修改以适用jdk1.5.以这个程序为基础,可以写出在互联网上查找比如图像.邮件.页面下载之类的"爬虫". 先请看程序运转的进程: D:\java>javac SearchCrawler

使用PHP创建基本的爬虫程序【转】

Web Crawler, 也时也称scrapers,即网络爬虫,用于自动搜索internet并从中提取想要的内容.互联网的发展离不开它们.爬虫是搜索引擎的核心,通过智能算法发现符合你输入的关键字的网页. Google网络爬虫会进入你的域名,然后扫描你网站的所有网页,从中析取网页标题,描述, 关键字和链接 - 然后把这些的评价返回给Google HQ,把内容存放至海量的数据库中. 今天,我很高兴告诉你怎么做自己的爬虫 -- 它并不对整个互联网进行搜索,只是对指定的一个网址获取所有链接和信息[

ok6410[002] ubuntu1604系统下搭配ckermit和dnw基于RAM的裸机程序调试环境

ubuntu1604系统下搭配ckermit和dnw基于RAM的裸机程序调试环境系统: ubuntu16.04 裸板: 飞凌公司OK6410开发板目标:搭建基于ubuntu1604系统和基于RAM的裸机程序开发环境 1.安装配置ckermit 在ubuntu1604下一般做裸板开发时都是使用ckermit作为远程通讯终端,下面我们就开始讲解下其安装与配置. 1.1.安装ckermit 在ubuntu系统下安装ckermit,使用 sudo apt-get install ckermi

医学教育网爬虫程序（直播）

12-18 今晚接到老姐的电话,说她已在"医学教育网"订购了不少视频,要我帮她将所有的视频都下载下来.我看了一下,里面有24门科目,每门科目有40多节.要我手动一个一个下,还不如让我去死.这种重复的事情还是让程序来做吧!这里开一篇博客直播编写的过程. 被爬网址:http://www.med66.com/ 前几天我刚做完一个Qihuiwang的爬虫软件.这次我评估了一下,这次要做的视频下载爬虫程序比上次又有新的挑战: (1)要处理登陆的过程,上一个不需要登陆就可以直接爬.这次必须要登陆才

Python写的网络爬虫程序（很简单）

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&

webmagic爬虫程序

package com.letv.cloud.spider;import java.util.HashSet;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;public class Mov