ASP.NET抓取网页内容的实现方法

这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下

 一、ASP.NET 使用HttpWebRequest抓取网页内容

 /// <summary>方法一:比较推荐
 /// 用HttpWebRequest取得网页源码
 /// 对于带BOM的网页很有效,不管是什么编码都能正确识别
 /// </summary>
 /// <param name="url">网页地址" </param>
 /// <returns>返回网页源文件</returns>
 public static string GetHtmlSource2(string url)
 {
     //处理内容
     string html = "";
     HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
     request.Accept = "*/*"; //接受任意文件
     request.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.1.4322)"; //
     request.AllowAutoRedirect = true;//是否允许302
     //request.CookieContainer = new CookieContainer();//cookie容器,
     request.Referer = url; //当前页面的引用
     HttpWebResponse response = (HttpWebResponse)request.GetResponse();
     Stream stream = response.GetResponseStream();
     StreamReader reader = new StreamReader(stream, Encoding.Default);  //这里如果出现乱码可以使用 Encoding.GetEncoding("utf-8")处理
html = reader.ReadToEnd(); stream.Close(); return html; }
二、ASP.NET 使用 WebResponse 抓取网页内容

public static string GetHttpData2(string Url)
 {
     string sException = null;
     string sRslt = null;
     WebResponse oWebRps = null;
     WebRequest oWebRqst = WebRequest.Create(Url);
     oWebRqst.Timeout = 50000;
     try
     {
         oWebRps = oWebRqst.GetResponse();
     }
     catch (WebException e)
     {
         sException = e.Message.ToString();
     }
     catch (Exception e)
     {
         sException = e.ToString();
     }
     finally
     {
         if (oWebRps != null)
         {
             StreamReader oStreamRd = new StreamReader(oWebRps.GetResponseStream(), Encoding.GetEncoding("utf-8"));
             sRslt = oStreamRd.ReadToEnd();
             oStreamRd.Close();
             oWebRps.Close();
         }
     }
     return sRslt;
 }

原文:http://www.jb51.net/article/60740.htm

时间: 2024-10-27 03:25:46

ASP.NET抓取网页内容的实现方法的相关文章

ASP.NET抓取网页内容

原文:ASP.NET抓取网页内容 一.ASP.NET 使用HttpWebRequest抓取网页内容 这种方式抓取某些页面会失败 不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的,有时候甚至返回404的错误提示页,这是什么原因呢? 其实,很多人都忽略了一个问题,那就是服务器默认的浏览器问题.有的服务器默认的浏览器是手机浏览器,那么,当我抓取这个服务器下的网页是,就相当于用手机浏览器来打开网页,而如果要抓取的目标网页没有相应的手机网页的话,就会返回意想不到的结果,有的返回404

C# .net 抓取网页内容

ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 1.抓取一般内容 需要三个类:WebRequest.WebResponse.StreamReader 所需命名空间:System.Net.System.IO 核心代码: WebRequest 类的 Create 为静态方法,参数为要抓取的网页的网址: Encoding 指定编码,Encoding 中有属性 ASCII.UTF32.UTF8 等全球通用的编码,但没有 gb2312 这个编码属性,所以我们使

Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码),并过滤需要的内容

Asp 使用 Microsoft.XMLHTTP 抓取网页内容,并过滤需要的内容 Asp 使用 Microsoft.XMLHTTP 抓取网页内容无乱码处理,并过滤需要的内容 示例源码: <% Dim xmlUrl,http,strHTML,strBody xmlUrl = Request.QueryString("u") REM 异步读取XML源 Set http = server.CreateObject("Microsoft.XMLHTTP") http.

jsoup实现java抓取网页内容。

Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力.但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup . jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内容.它提供了一套非

快速抓取某个网站内容方法

是不是有人相抓取网页上面的内容,放到别的网站上面.下面我给大家介绍一种最常用的方法: 用HtmlAgilityPack 组件. public String GetHtml() { string url = "http://t.news.fx168.com/"; HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest; using (HttpWebResponse response = request.G

phpjquery抓取网页内容

phpquery抓取网页内容,以下都经过测试,不过phpquery你最好用我上传的,别的不保证,其实我也是下载的. include 'phpQuery/phpQuery.php'; /** phpQuery::newDocumentFile("http://www.helloweba.com/blog.html"); $artlist = pq(".blog_li"); foreach($artlist as $li){ echo pq($li)->find(

抓取网页内容并截图

需要调用windows.Forms命名空间,使用一个类库WebPreview1.1.rar_by_Kai.Ma,此处仅记录之. 给一个下载链接WebPreview1.1.rar_by_Kai.Ma.rar 抓取网页内容并截图,布布扣,bubuko.com

perl 抓取网页内容

抓取乐彩网历年排列5数据 use LWP::Simple; use FileOperate;my $src = 'http://www.17500.cn/p5/all.php';my $FileOperate = FileOperate->new();my $FilePath = "C:\\Documents and Settings\\Administrator\\桌面\\PrelTest\\保存的模块\\文本处理";#获取文件夹下所有内容 #http://www.17500.

php使用curl简单抓取远程url的方法

这篇文章主要介绍了php使用curl简单抓取远程url的方法,涉及php操作curl的技巧,具有一定参考借鉴价值,需要的朋友可以参考下 本文实例讲述了php使用curl抓取远程url的方法.分享给大家供大家参考.具体如下: cURL是一个非常有用的php库,可以用来连接不通类型的服务器和协议,下面是一个最基本的范例用来抓取远程网页 ? 1 2 3 4 5 6 <?php $c = curl_init('http://www.w3mentor.com/robots.txt'); curl_seto