asp.net mvc抓取微信文章里面所有的图片

/// <summary>
    /// 下载指定URL下的所有图片
    /// </summary>
    public class WebPageImage
    {
        /// <summary>
        /// 获取网页中全部图片
        /// </summary>
        /// <param name="url">网页地址</param>
        /// <param name="charSet">网页编码,为空自动判断</param>
        /// <returns>全部图片显示代码</returns>
        public string getImages(string url, string charSet)
        {
            string s = getHtml(url, charSet);
            return getPictures(s, url);
        }

        /// <summary>
        /// 获取网页中全部图片
        /// </summary>
        /// <param name="url">网址</param>
        /// <returns>全部图片代码</returns>
        public string getImages(string url)
        {
            return getImages(url, "");
        }

        string doman(string url)
        {
            Uri u = new Uri(url);
            return u.Host;
        }

        /// <summary>
        /// 获取网页内容
        /// </summary>
        /// <param name="url">网站地址</param>
        /// <param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
        /// <returns></returns>
        string getHtml(string url, string charSet)
        {
            WebClient myWebClient = new WebClient();
            //创建WebClient实例myWebClient
            // 需要注意的:
            //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
            //这是就要具体问题具体分析比如在头部加入cookie
            // webclient.Headers.Add("Cookie", cookie);
            //这样可能需要一些重载方法。根据需要写就可以了 

            //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
            myWebClient.Credentials = CredentialCache.DefaultCredentials;
            //如果服务器要验证用户名,密码
            //NetworkCredential mycred = new NetworkCredential(struser, strpassword);
            //myWebClient.Credentials = mycred;
            //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
            byte[] myDataBuffer = myWebClient.DownloadData(url);
            string strWebData = Encoding.Default.GetString(myDataBuffer);

            //获取网页字符编码描述信息
            Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
            string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
            if (charSet == null || charSet == "")
                charSet = webCharSet;

            if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
                strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
            return strWebData;
        }

        string getPictures(string data, string url)
        {
            MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""‘]?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""‘<>]*)[^<>]*?/?[\s\t\r\n]*>");
            string s = string.Empty;
            for (int i = 0; i < ps.Count; i++)
            {
                pictures p = new pictures(ps[i].Value, url);
                s += p.GetHtml + "<br />" + Environment.NewLine;
            }
            return s;
        }

        /// <summary>
        /// 图片实体
        /// 图片文件属性处理类
        /// </summary>
        public class pictures
        {
            public pictures(string strHtml, string baseUrl)
            {
                _html = strHtml;
                Uri u1 = new Uri(baseUrl);
                _doman = u1.Host;
                _baseUrl = u1.Scheme + "://" + _doman;
                setSrc();
            }

            private string _html = string.Empty;
            private string _baseUrl = string.Empty;
            private string _doman = string.Empty;

            public string GetHtml
            {
                get { return _html; }
            }

            public string Alt
            {
                get
                {
                    return GetAttribute("alt")[0];
                }
            }

            public string Src
            {
                get
                {
                    string s = GetAttribute("src")[0];
                    return s;
                }
            }

            /// <summary>
            /// 根据基路径把相对路径转换成绝对径
            /// </summary>
            /// <param name="baseUrl">基础路径</param>
            /// <param name="u">待转换的相对路径</param>
            /// <returns>绝对路径</returns>
            public string absUrl(string baseUrl, string u)
            {
                Uri ub = new Uri(baseUrl);
                Uri ua = new Uri(ub, u);
                return ua.AbsoluteUri;
            }

            private void setSrc()
            {
                string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""‘]?\S+[""‘]?";
                string src = GetAttribute("src")[0].ToLower();
                if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
                {
                    src = absUrl(_baseUrl, src);
                    string s = "src=\"" + src + "\"";
                    _html = Regex.Replace(_html, strPattern, s);
                }
            }

            /// <summary>
            /// 获取HTML代码中标签属性
            /// </summary>
            /// <param name="strHtml">HTML代码</param>
            /// <param name="strAttributeName">属性名称</param>
            /// <returns>属性值集合</returns>
            private string[] GetAttribute(string strAttributeName)
            {
                List<string> lstAttribute = new List<string>();
                string strPattern = string.Format(
                  @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""‘]?\S+[""‘]?",
                  strAttributeName
                  );
                MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
                foreach (Match m in matchs)
                {
                    lstAttribute.Add(m.Value.Split(‘=‘)[1].Replace("\"", "").Replace("‘", ""));
                }
                if (lstAttribute.Count == 0) lstAttribute.Add("");
                return lstAttribute.ToArray();
            }

        }

        /// <summary>
        /// 取得HTML中所有图片的 URL。
        /// </summary>
        /// <param name="sHtmlText">HTML代码</param>
        /// <returns>图片的URL列表</returns>
        public string[] GetHtmlImageUrlList(string sHtmlText)
        {
            // 定义正则表达式用来匹配 img 标签
            Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""‘]?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""‘<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);

            // 搜索匹配的字符串
            MatchCollection matches = regImg.Matches(sHtmlText);
            int i = 0;
            string[] sUrlList = new string[matches.Count];

            // 取得匹配项列表
            foreach (Match match in matches)
                sUrlList[i++] = match.Groups["imgUrl"].Value;
            return sUrlList;
        }

    }

调用的自己设定修改

/// <summary>
        /// 一键下载
        /// </summary>
        /// <param name="url">url地址</param>
        /// <returns></returns>
        [HttpPost]
        public ActionResult ImgDow(string url)
        {
            //System.Drawing.Bitmap img = null;
            HttpWebRequest req;
            HttpWebResponse res = null;
            try
            {
                Common.WebPageImage model = new WebPageImage();
                string v = model.getImages(url, "");
                string[] Arrt = model.GetHtmlImageUrlList(v);
                foreach (var item in Arrt)
                {
                    string[] file = item.Split(‘/‘);
                    if(file.Count()>4)
                    {
                        //string name = string.IsNullOrEmpty(System.IO.Path.GetFileName(file[0])) ? DateTime.Now.ToFileTime().ToString() : System.IO.Path.GetFileName(file[0]);
                        //System.Uri httpUrl = new System.Uri(item);
                        //req = (HttpWebRequest)(WebRequest.Create(httpUrl));
                        //req.Timeout = 180000; //设置超时值10秒
                        //req.Accept = "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*";
                        //req.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
                        //req.Method = "GET";
                        //res = (HttpWebResponse)(req.GetResponse());
                        //Stream strea = res.GetResponseStream();
                        //img = new Bitmap(strea);//获取图片流
                        //string[] imgGS = file[3].Split(‘_‘);
                        //switch (imgGS[1])
                        //{
                        //    case "gif":
                        //        img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".gif", ImageFormat.Gif);
                        //        break;
                        //    case "jpg":
                        //        img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".jpg");
                        //        break;
                        //    case "png":
                        //        img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".png");
                        //        break;
                        //    default:
                        //        img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".jpg");
                        //        break;
                        //}
                        WebClient my = new WebClient();
                        byte[] mybyte;
                        mybyte = my.DownloadData(item);
                        MemoryStream ms = new MemoryStream(mybyte);
                        System.Drawing.Image img;
                        img = System.Drawing.Image.FromStream(ms);
                        img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".gif", ImageFormat.Gif); //保存
                        System.Threading.Thread.Sleep(1000);
                    }
                }

                return WriteSuccess("1");
            }
            catch (Exception ex)
            {
                return WriteError(ex.Message);
            }
            finally
            {
                //res.Close();
            }
        }
时间: 2024-10-12 15:53:04

asp.net mvc抓取微信文章里面所有的图片的相关文章

asp.net MVC 抓取微信文章数据(正文)

1.抓微信的正文主要是调用第三方的接口(https://market.aliyun.com/products/56928004/cmapi012134.html) using Newtonsoft.Json; using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Net.Security; using System.Sec

[Python爬虫] 之十五:Selenium +phantomjs根据微信公众号抓取微信文章

借助搜索微信搜索引擎进行抓取 抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰 在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文名可能会有重复,同时公众号名字一定要完全正确,不然可能搜到很多东西,这样我们可以减少数据的筛选工作, 只要找到这个唯一英文名对应的那条数据即可),即发送请求到'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&

使用redis所维护的代理池抓取微信文章

搜狗搜索可以直接搜索微信文章,本次就是利用搜狗搜搜出微信文章,获得详细的文章url来得到文章的信息.并把我们感兴趣的内容存入到mongodb中. 因为搜狗搜索微信文章的反爬虫比较强,经常封IP,所以要在封了IP之后切换IP,这里用到github上的一个开源类,当运行这个类时,就会动态的在redis中维护一个ip池,并通过flask映射到网页中,可以通过访问 localhost:5000/get/ 来获取IP 这是搜狗微信搜索的页面, 构造搜索url .搜索时会传递的参数,通过firefox浏览器

根据微信号来抓取微信文章

<script type="text/javascript"> //计算字符串长度 String.prototype.strLen = function() { var len = 0; for (var i = 0; i < this.length; i++) { if (this.charCodeAt(i) > 255 || this.charCodeAt(i) < 0) len += 2; else len ++; } return len; } /

用代理抓取微信文章

GitHub:https://github.com/LXL-YAN/weixinArticles 原文地址:https://www.cnblogs.com/LXL616/p/10759571.html

使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数

1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Export Root Certificate to Desktop(导出证书到桌面)选项: 安装证书: 在桌面上找到FiddlerRoot.cer文件,双击进行安装直到导入成功. 2 配置fiddler抓取规则 在菜单栏中依次选择 [Rules]->[Customize Rules] 弹出Fiddler Scr

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌,小编在网上找到了第三方工具,它可以将朋友圈进行导出,之后便可以像我们正常爬虫网页一样进行抓取信息了. [出书啦]就提供了这样一种服务,支持朋友圈导出,并排版生成微信书.本文的主要参考资料来源于这篇博文:https://www.cnblogs.com/sheng-jie/p/7776495.html

如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例

前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态--附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣的伙伴可以戳这篇文章:利用Python词云和wordart可视化工具对朋友圈数据进行可视化. 今天我们继续focus on微信,不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况.代码实现蛮简单的,具体的教程如下. 相信大家都知道,直接通过网页抓取微信的数据

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将其进行可视化,具体的教程如下. 爬取微信好友信息,不得不提及这个itchat库,简直太神奇了,通过它访问微信好友基本信息可谓如鱼得水.下面的代码是获取微信好友的省位信息: 程序运行之后,需要扫描进行授权登录,之后在Pycharm的控制台上会出现如下图的红色提示,这些红色的字体并不是我们通常遇到的Py