利用backgroundwork----递归读取网页源代码,并下载href链接中的文件

今天闲着没事,研究了一下在线更新程序版本的问题。也是工作中的需要,开始不知道如何下手,各种百度也没有找到自己想要的,因为我的需求比较简单,所以就自己琢磨了一下。讲讲我的需求吧。自己在IIs上发布了一个网站,这个网站仅仅只是内部使用的,网站的内容就是我的另外一个程序(就叫A程序吧)的打包发布的文件放进去。然后在客户端启动我的A程序之前检查是否有新版本文件发布。如果有,我根据网页源代码的信息和本地文件信息进行比较,决定是否下载。如果有下载,下载完成后执行A程序的.exe文件启动A程序。大致的要求就是这样。

首先自己发布一个测试网站,也就是简单的在IIS上将我本机的一个文件夹发布出来,具体怎么操作就不做讲解了。得到我的网址:http://localhost/webTest/。这个网站就作为我以后有新版本文件要发布就直接丢进去。

上面的截图中有几个地方需要注明一下:

1.是这个文件最后一次编辑日期。

2.是最后一次编辑时间点。

3.是你这个文件的大小。

4.椭圆部分是一个文件夹。

前面标题说用递归,就是因为网站中可能存在子文件夹,遇到子文件夹我就要继续跟进去读取源代码获取我要的信息。

注:网页中有个[to parent Directory]这是他的父文件夹,我们在读取网页源代码的时候要对这部分进行处理

注:1,2部分是指这个文件最后一次编辑时间,比如说你在本地有个文件你对他进行最后一次的编辑时间2016/8/26 13:15  那不管你把这个文件拷贝或是上传到其他地方,那他的编辑时间始终不会变的。

大致的情况介绍的差不多了,接下来直接开始我的读取网页下载文件的程序吧!上代码,一如既往,图文并茂的文章才是好文章。

一、创建一个winform工程。

图(1):工程结构

图(2):winform需要的控件

图(1)中我添加了两个帮助类:FileHelper.cs/HttpHelper.cs。在后面做详细介绍

图(2)中1是一个label控件,用来显示正在下载的文件名。2是progressBar控件,winform自带的进度条控件,我觉得还挺好用的。。还需要一个backgroundwork控件

二:帮助类文件

FileHelper.cs帮助类文件。

1  public class FileHelper
2  {
3       public DateTime ModiDate { get; set; } //最后编辑时间
4
5      public long Size { get; set; }  //文件大小
6
7      public String FilePath { get; set; }  //路径+文件名
8  }

HttpHelper.cs

  1 /// <summary>
  2         /// 获取网页源代码
  3         /// </summary>
  4         /// <param name="serverUrl">网址</param>
  5         /// <param name="listFile">存放下载文件的集合</param>
  6         /// <param name="listHref">存放子目录集合</param>
  7
  8         public static void GetHtmlResource(string serverUrl, List<FileHelper> listFile, List<string> listHref)
  9         {
 10             #region
 11             //Uri u = new Uri(serverUrl);
 12             //string host = u.Host;
 13             //if (serverUrl.EndsWith("/"))
 14             //{
 15             //    //1.获取网页源代码
 16             //    WebClient wc = new WebClient();
 17             //    wc.Credentials = CredentialCache.DefaultCredentials;
 18             //    byte[] htmlData = wc.DownloadData(serverUrl);
 19             //    string htmlStr = Encoding.Default.GetString(htmlData);
 20             //    //2.正则找到href属性内容截取
 21             //    string regMat = @"(?is)<a[^>]*?href=([‘""\s]?)(?<href>[^‘""\s]*)\1[^>]*?";
 22             //    MatchCollection mat = Regex.Matches(htmlStr, regMat, RegexOptions.IgnoreCase);
 23             //    List<string> listHref = new List<string>(); //存放href结合
 24             //    for (int i = 0; i < mat.Count; i++)
 25             //    {
 26             //        string item = mat[i].Groups["href"].Value;
 27             //        listHref.Add(item);
 28             //        MatchCollection match = Regex.Matches(htmlStr, "([0-9]{1,})\\s\\<A\\sHREF=\""+ item+"\"", RegexOptions.IgnoreCase);
 29             //        if(match.Count == 1 && match[0].Groups.Count==2)
 30             //        {
 31             //            fileSize.Add(@"http://" + host + item, int.Parse(match[0].Groups[1].Value));
 32             //        }
 33             //    }
 34             //    foreach (var item in listHref) //Match item in mat
 35             //    {
 36             //        string url = @"http://"+host + item;
 37             //        if (serverUrl.StartsWith(url))
 38             //        {
 39             //            continue;
 40             //        }
 41             //        GetHtmlResource(url, serverFilePath,fileSize);
 42             //    }
 43             //}
 44             //else
 45             //{
 46             //    serverFilePath.Add(serverUrl);
 47             //}
 48             #endregion
 49
 50             Uri u = new Uri(serverUrl);
 51             string host = u.Host;
 52             if (serverUrl.EndsWith("/"))
 53             {
 54                 //1.获取网页源代码
 55                 WebClient wc = new WebClient();
 56                 wc.Credentials = CredentialCache.DefaultCredentials;
 57                 byte[] htmlData = wc.DownloadData(serverUrl);
 58                 string htmlTempStr = Encoding.Default.GetString(htmlData);
 59                 //完全用字符串截取的方式得到自己想要的东西
 60                 htmlTempStr = htmlTempStr.Substring(htmlTempStr.IndexOf("<pre>"));
 61                 htmlTempStr = htmlTempStr.Substring(0, htmlTempStr.IndexOf("</pre>"));
 62                 htmlTempStr = htmlTempStr.Replace("<pre>", "");
 63                 htmlTempStr = htmlTempStr.Replace("</pre>", "");
 64                 htmlTempStr = htmlTempStr.Replace("&lt;dir&gt;", "-1"); //把子菜单前面的"&lt;dir&"改为-1,为了跟其他的信息一致有规律
 65                 htmlTempStr = htmlTempStr.Replace("<br>", "#");
 66                 string[] tempStr = htmlTempStr.Split(‘#‘);
 67                 ArrayList listStr = new ArrayList(tempStr);
 68                 //移除每个新网页的父级文件夹
 69                 listStr.RemoveAt(0);
 70                 for (int i = 0; i < listStr.Count; i++)
 71                 {
 72                     if (String.IsNullOrWhiteSpace(listStr[i].ToString()))
 73                     {
 74                         listStr.RemoveAt(i);
 75                     }
 76                 }
 77                 tempStr = (string[])listStr.ToArray(typeof(string));
 78
 79                 for (int f = 0; f < tempStr.Length; f++)
 80                 {
 81                     //截取最后修改日期带时间
 82                     string fileModiTime = tempStr[f].Substring(0, 20);
 83                     //截取文件大小
 84                     string fileSize = tempStr[f].Substring(20, tempStr[f].IndexOf("<A") - 20);
 85                     //截取文件路径
 86                     string filePath = tempStr[f].Split(‘\"‘)[1];
 87                     FileHelper file = new FileHelper();
 88                     file.ModiDate = Convert.ToDateTime(fileModiTime.Trim());
 89                     file.Size = Convert.ToInt32(fileSize.Trim());
 90                     file.FilePath = @"http://" + host + filePath;
 91                     //如果大小为-1,我就认为是子文件夹,添加到集合中
 92                     if (file.Size == -1)
 93                     {
 94                         listHref.Add(file.FilePath);
 95                     }
 96                     else
 97                     {
 98                         //添加到要下载的文件集合中
 99                         listFile.Add(file);
100                     }
101                 }
102                 //循环我的子文件夹集合
103                 foreach (var item in listHref)
104                 {
105                     //如果item等于我的serverUrl继续
106                     if (serverUrl.StartsWith(item))
107                     {
108                         continue;
109                     }
110                     //递归
111                     GetHtmlResource(item, listFile, listHref);
112                 }
113
114             }
115         } 

 1  /// <summary>
 2         /// 下载文件
 3         /// </summary>
 4         /// <param name="serverUrl">文件在服务器的全路径</param>
 5         /// <param name="localFilePath">下载到本地的路径</param>
 6         public static void DownLoadMdiFile(string serverUrl,string localFilePath)
 7         {
 8             //localFilePath = localFilePath.Replace(".exe.config.xml", ".exe.config");
 9             if (localFilePath.Contains(".exe.config.xml"))
10             {
11                 localFilePath = localFilePath.Replace(".exe.config.xml", ".exe.config");
12             }
13             if (localFilePath.Contains(".config.xml"))
14             {
15                 localFilePath = localFilePath.Replace(".config.xml", ".config");
16             }
17             //网页中子文件夹是否存在,如果不存在,创建文件夹,存在直接下载文件
18             FileInfo file = new FileInfo(localFilePath);
19             if(!file.Directory.Exists)
20             {
21                 Directory.CreateDirectory(file.Directory.FullName);
22
23             }
24             try
25             {
26                 WebClient wc = new WebClient();
27                 if (!localFilePath.Contains("web.config"))
28                 {
29                     wc.DownloadFile(serverUrl, localFilePath);
30                 }
31             }
32             catch (Exception e)
33             {
34                 throw;
35             }
36         }

三:banckgroundwork控件
对于这个控件我需要实现他的三个事件。很简单的三个事件,看事件名称就能知道他的意思了

第一个:backgroundWorker1_DoWork

 1 private void backgroundWorker1_DoWork(object sender, DoWorkEventArgs e)
 2         {
 3             #region
 4             //string installUrl = GetInstallPath();
 5             //List<string> listFilePath = new List<string>();
 6             //Dictionary<string, int> fileSize = new Dictionary<string, int>();
 7             //HttpHelper.GetHtmlResource(installUrl, listFilePath, fileSize);
 8             //for (int i=0;i<listFilePath.Count;i++)
 9             //{
10             //    if (backgroundWorker1.CancellationPending)
11             //    {
12             //        e.Cancel = true;
13             //        return;
14             //    }
15             //    double total = listFilePath.Count;
16             //    double current = i+1;
17             //    int progress = (int)(current / total * 100);
18             //    string serverUrl = listFilePath[i];
19             //    int size = fileSize[serverUrl];
20             //    backgroundWorker1.ReportProgress(progress, serverUrl.Replace(installUrl, ""));
21             //    string localPath = serverUrl.Replace(installUrl, localInstallPath);
22             //    if (File.Exists(localPath))
23             //    {
24             //        FileStream fs = new FileStream(localPath, FileMode.Open);
25
26             //        if (fs.Length != size)
27             //        {
28             //            try
29             //            {
30             //                HttpHelper.DownLoadMdiFile(serverUrl, localPath);
31             //            }
32             //            catch (Exception )
33             //            {
34             //                throw;
35             //            }
36             //        }
37             //        fs.Close();
38             //    }
39             //    else
40             //    {
41             //        HttpHelper.DownLoadMdiFile(serverUrl, localPath);
42             //    }
43             //}
44             #endregion
45             string installUrl = GetInstallPath();
46             List<string> listHref = new List<string>();//存放子文件夹集合
47             List<FileHelper> listFile = new List<FileHelper>();//存放下载文件集合
48             HttpHelper.GetHtmlResource(installUrl, listFile, listHref);
49             for (int i = 0; i < listFile.Count; i++)
50             {
51                 if (backgroundWorker1.CancellationPending)
52                 {
53                     e.Cancel = true;
54                     return;
55                 }
56                 double total = listFile.Count;
57                 double current = i + 1;
58                 int progress = (int)(current / total * 100);
59                 //服务器文件+全路径
60                 string serverUrl = listFile[i].FilePath;
61                 //服务器文件大小
62                 long size = listFile[i].Size;
63                 //服务器文件最后修改时间
64                 DateTime modiTine = listFile[i].ModiDate;
65                 //backgroundWorker1执行到那个阶段
66                 backgroundWorker1.ReportProgress(progress, serverUrl.Replace(installUrl, ""));
67                 string localPath = serverUrl.Replace(installUrl, localInstallPath);
68                 //判断文件是否存在
69                 if (File.Exists(localPath))
70                 {
71                     //获取本地文件
72                     FileInfo fs = new FileInfo(localPath);
73                     //如果服务器文件大小,最后修改时间和本地文件进行对比,是否有变化
74                     if (fs.Length != size || fs.LastWriteTime != modiTine)
75                     {
76
77                         try
78                         {
79                             HttpHelper.DownLoadMdiFile(serverUrl, localPath);
80                         }
81                         catch (Exception)
82                         {
83
84                             throw;
85                         }
86                     }
87
88                 }
89                 else
90                 {
91                     HttpHelper.DownLoadMdiFile(serverUrl, localPath);
92                 }
93             }
94         }

第二个:backgroundWorker1_ProgressChanged

1  private void backgroundWorker1_ProgressChanged(object sender, ProgressChangedEventArgs e)
2         {
3             this.progressBar.Value = e.ProgressPercentage;
4             var display = e.UserState.ToString();
5             labDisplay.Text = display.Trim();
6             //lbl_pbvalue.Text = "更新进度" + e.ProgressPercentage + "%";
7         }

第三个:backgroundWorker1_RunWorkerCompleted

 1 private void backgroundWorker1_RunWorkerCompleted(object sender, RunWorkerCompletedEventArgs e)
 2         {
 3             runningPath += "A.exe";
 4             try
 5             {
 6                 System.Diagnostics.Process.Start(runningPath);
 7             }
 8             catch (Exception ex)
 9             {
10                 MessageBox.Show(ex.Message);
11             }
12
13             this.Close();
14         }

在使用backgroundwork和progressBar控件的时候需要注意几个点
 this.backgroundWorker1.WorkerReportsProgress = true;  用于进度条更新
 this.backgroundWorker1.WorkerSupportsCancellation = true; 提供中途终止进程

this.progressBar.Maximum = 100;给一个最大值

好吧!就这样一个简单的在线更新文件的程序就搞定啦!

【转载注明出处!谢谢】

时间: 2024-12-16 22:49:58

利用backgroundwork----递归读取网页源代码,并下载href链接中的文件的相关文章

Java 读取网页源代码

package com.sphere.service; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; public class QueryService { /** * 发起http get请

python3 网页爬虫图片下载无效链接处理 try except

代码比较粗糙,主要是备忘容易出错的地方.供自己以后查阅. #图片下载 import re import urllib.request    #python3中模块名和2.x(urllib)的不一样 site='https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC' page=urllib.request.urlopen(site) html=page.read() html=htm

Java实现下载BLOB字段中的文件

概述 web项目的文件下载实现:servlet接收请求,spring工具类访问数据库及简化大字段内容获取. 虽然文章的demo中是以sevlet为平台,想必在spring mvc中也有参考意义. 核心代码 响应设置和输出 1 public void service(ServletRequest request, final ServletResponse response) 2 throws ServletException, IOException { 3 /* 1. 设置响应内容类型 */

dom4j递归读取struts.xml文件

<pre name="code" class="java">package junitTest; import java.io.IOException; import java.util.Iterator; import java.util.List; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.Element; import org.dom4j.io.S

nutch+mysql gb2312网页源代码中文乱码

问题描述: 将nutch爬的网页源代码存在mysql中,网页编码为gb2312的网页中文乱码,其他编码暂未发现问题.因为nutch对爬下的网页源代码content不作任何处理,仅仅保存,而我的mysql编码设置的为utf-8,所以会显示乱码. 现在需要处理网页源代码,取出指定数据,那么java程序如何将gb2312中文乱码的网页源代码转化为非乱码. 解决: 其实采用ResultSet的getBytes方法即可. public void getResoucePage() throws Except

c#利用WebClient和WebRequest获取网页源代码的比较

前几天举例分析了用asp+xmlhttp获取网页源代码的方法,但c#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取网页源代码 WebClient类 WebClient类位于System.Net命名空间下,WebClient类提供向URI标识的任何本地.Intranet或Internet资源发送数据以及从这些资源接收数据的公共方法. 源代码 ///引用命名空间using System.IO;using Syste

AsyncHttpClient来完成网页源代码的显示功能,json数据在服务器端的读取还有安卓上的读取

一.使用AsyncHttpClient来完成网页源代码的显示功能: 首先.我们引入 步骤: 1.添加网络权限 2.判断网页地址是否为空 3.不为空的情况下创建客户端对象 4.处理get/post请求 5.如果成功的话,设置显示内容的值 a) 获取文件响应编码类型(保证不乱码) i. 遍历头部信息取出contentType_value的值 ii. 定义服务器缺省编码方式 iii.  处理contentType_value来获取编码方式 1. contentType_value是否有“=” 2. c

java读取网页图片路径并下载到本地

最近公司需要爬取一些网页上的数据,自己就简单的写了一个demo,其中有一些数据是图片,需要下载下来到本地并且 将图片的路径保存到数据库,示例代码如下: package com.cellstrain.icell.util; import java.io.File;import java.io.FileOutputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.URL;import java.

用正则表达式去截取网页里文字的方法。参数为读取的网页源代码

//抓取文字方法,参数为网页源代码 public string ExtractText(string strHtml) { string result = strHtml; result = RemoveComment(result); //调用去掉注释等方法 result = RemoveScript(result); //调用去除js 方法 result = RemoveStyle(result); //调用去除样式表方法 result = RemoveTags(result); //调用去