c#使用正则表达式抓取a标签的链接和innerhtml

  //读取网页html
            string text = File.ReadAllText(Environment.CurrentDirectory + "//test.txt", Encoding.GetEncoding("gb2312"));
            string prttern = "<a(\\s+(href=\"(?<url>([^\"])*)\"|‘([^‘])*‘|\\w+=\"(([^\"])*)\"|‘([^‘])*‘))+>(?<text>(.*?))</a>";
            var maths = Regex.Matches(text, prttern);
            //抓取出来写入的文件
            using (FileStream w = new FileStream(Environment.CurrentDirectory + "//wirter.txt", FileMode.Create))
            {

                for (int i = 0; i < maths.Count; i++)
                {
                    byte[] bs = Encoding.UTF8.GetBytes(string.Format("链接地址:{0},   innerhtml:{1}", maths[i].Groups["url"].Value,
                        maths[i].Groups["text"].Value) + "\r\n");
                    w.Write(bs, 0, bs.Length);
                    Console.WriteLine();
                }
            }
            Console.ReadKey();

图解正则

时间: 2024-10-05 04:45:18

c#使用正则表达式抓取a标签的链接和innerhtml的相关文章

用正则表达式抓取网页中的ul 和 li标签中最终的值!

获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1";            string htmlStr = null;            for (int i = 0; i < 10; i++)            {                try                {                    System.Net.Http

【iOS】正则表达式抓取网页数据制作小词典

应用程序不一定要自己去提供数据,有现成的数据学会去用才好. 网络很大,各种搜索引擎每天到处爬.本文通过正则表达式抓取网站的数据来做一个小词典. 一.正则表达式的使用 1. 确定匹配方案,即pattern 2. 用pattern实例化NSRegularExpression 3. 用匹配方法开始匹配. 匹配一次:可以使用firstMatch方法 匹配多次:可以用matchs方法 正则表达式对照表:(在网上找到了一个很不错的表,正则表达式各个语言通用) http://www.jb51.net/shou

python3用BeautifulSoup抓取a标签

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 from bs4 import BeautifulSoup import urllib.request html_doc = "http://tieba.baidu.com/p/2460150866" req = urllib.request.Request(html_doc) webpage = urllib.reques

iOS开发——网络使用技术OC篇&amp;网络爬虫-使用正则表达式抓取网络数据

网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看看网络爬虫的基本原理: 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中.

C#.Net使用正则表达式抓取百度百家文章列表

工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 1 public List<string[]> GetUrl() 2 { 3 try 4 { 5 string url = "http://baijia.baidu.com/"; 6 WebRequest webRequest = WebRequest.Create(url); 7 WebResponse web

jmeter从上一个请求使用正则表达式抓取Set-Cookie值,在下一个请求中运用

工作中遇到的问题,登录请求,返回的Response Headers中有个参数Set-Cookie,需要抓取这个参数,运用到下一个请求中,见下图: 通过正则表达式抓取Set-Cookie的值,由于该值存在在Response Headers中,正则需要选择为"信息头": 运用在别的请求中,需要添加一个"HTTP信息头管理器",引用上面抓取的值,见下图: 再次发送请求,Response Headers里也有Set-Cookie值,不会再返回登录超时了. 原文地址:http

正则表达式抓取新闻数据

抓取网站数据建议用服务操作,此例只实现从请求到拿数据,并把数据写入xml的功能 List<youcaimodel> _list = new List<youcaimodel>(); int page = 1000; //一共抓取1000页的数据 WebClient client = new WebClientto(3000); client.Credentials = CredentialCache.DefaultCredentials;  //获取或设置用于向Internet资源

【python小随笔】python 解析xml数据的新手大坑&gt;&gt;抓取多重标签,遍历各标签的数据

xml文档: <GetMatchingProductResult ASIN="B071LF9R6G" status="Success">...</GetMatchingProductResult> <GetMatchingProductResult ASIN="B0714BP3H4" status="Success">...</GetMatchingProductResult>

python3用BeautifulSoup用字典的方法抓取a标签内的数据

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址,可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Req