java通过url抓取网页数据-----正则表达式

原文地址https://www.cnblogs.com/xiaoMzjm/p/3894805.html

【本文介绍】　　

爬取别人网页上的内容，听上似乎很有趣的样子，只要几步，就可以获取到力所不能及的东西，例如呢？例如天气预报，总不能自己拿着仪器去测吧！当然，要获取天气预报还是用webService好。这里只是举个例子。话不多说了，上看看效果吧。

【效果】

我们随便找个天气预报的网站来试试：http://www.weather.com.cn/html/weather/101280101.shtml

从图中可用看出，今天（6日）的天气。我们就以这个为例，获取今天的天气吧！

最终后台打印出：

今天:6日
天气：雷阵雨
温度：26°~34°
风力：微风

【思路】

1、通过url获取输入流————2、获取网页html代码————3、用正则表达式抽取有用的信息————4、拼装成想要的格式

其实最难的一点事第3点，如果正则表示式不熟，基本上在这一步就会挂掉了——例如我T_T。下面为了抽取到正确的数据，我匹配了多次，如果能一次匹配的话，那代码量就少多了！

【代码】

  1 package com.zjm.www.test;
  2
  3 import java.io.BufferedReader;
  4 import java.io.IOException;
  5 import java.io.InputStream;
  6 import java.io.InputStreamReader;
  7 import java.net.HttpURLConnection;
  8 import java.net.URL;
  9 import java.util.regex.Matcher;
 10 import java.util.regex.Pattern;
 11
 12 /**
 13  * 描述：趴取网页上的今天的天气
 14  * @author     zjm
 15  * @time     2014/8/6
 16  */
 17 public class TodayTemperatureService {
 18
 19      /**
 20      * 发起http get请求获取网页源代码
 21      * @param requestUrl     String    请求地址
 22      * @return                 String    该地址返回的html字符串
 23      */
 24     private static String httpRequest(String requestUrl) {
 25
 26         StringBuffer buffer = null;
 27         BufferedReader bufferedReader = null;
 28         InputStreamReader inputStreamReader = null;
 29         InputStream inputStream = null;
 30         HttpURLConnection httpUrlConn = null;
 31
 32         try {
 33             // 建立get请求
 34             URL url = new URL(requestUrl);
 35             httpUrlConn = (HttpURLConnection) url.openConnection();
 36             httpUrlConn.setDoInput(true);
 37             httpUrlConn.setRequestMethod("GET");
 38
 39             // 获取输入流
 40             inputStream = httpUrlConn.getInputStream();
 41             inputStreamReader = new InputStreamReader(inputStream, "utf-8");
 42             bufferedReader = new BufferedReader(inputStreamReader);
 43
 44             // 从输入流读取结果
 45             buffer = new StringBuffer();
 46             String str = null;
 47             while ((str = bufferedReader.readLine()) != null) {
 48                 buffer.append(str);
 49             }
 50
 51         } catch (Exception e) {
 52             e.printStackTrace();
 53         }  finally {
 54             // 释放资源
 55             if(bufferedReader != null) {
 56                 try {
 57                     bufferedReader.close();
 58                 } catch (IOException e) {
 59                     e.printStackTrace();
 60                 }
 61             }
 62             if(inputStreamReader != null){
 63                 try {
 64                     inputStreamReader.close();
 65                 } catch (IOException e) {
 66                     e.printStackTrace();
 67                 }
 68             }
 69             if(inputStream != null){
 70                 try {
 71                     inputStream.close();
 72                 } catch (IOException e) {
 73                     e.printStackTrace();
 74                 }
 75             }
 76             if(httpUrlConn != null){
 77                 httpUrlConn.disconnect();
 78             }
 79         }
 80         return buffer.toString();
 81     }
 82
 83     /**
 84      * 过滤掉html字符串中无用的信息
 85      * @param html    String    html字符串
 86      * @return         String    有用的数据
 87      */
 88     private static String htmlFiter(String html) {
 89
 90         StringBuffer buffer = new StringBuffer();
 91         String str1 = "";
 92         String str2 = "";
 93         buffer.append("今天:");
 94
 95         // 取出有用的范围
 96         Pattern p = Pattern.compile("(.*)(<li class=\‘dn on\‘ data-dn=\‘7d1\‘>)(.*?)(</li>)(.*)");
 97         Matcher m = p.matcher(html);
 98         if (m.matches()) {
 99             str1 = m.group(3);
100             // 匹配日期，注：日期被包含在<h2> 和 </h2>中
101             p = Pattern.compile("(.*)(<h2>)(.*?)(</h2>)(.*)");
102             m = p.matcher(str1);
103             if(m.matches()){
104                 str2 = m.group(3);
105                 buffer.append(str2);
106                 buffer.append("\n天气：");
107             }
108             // 匹配天气，注：天气被包含在<p class="wea" title="..."> 和 </p>中
109             p = Pattern.compile("(.*)(<p class=\"wea\" title=)(.*?)(>)(.*?)(</p>)(.*)");
110             m = p.matcher(str1);
111             if(m.matches()){
112                 str2 = m.group(5);
113                 buffer.append(str2);
114                 buffer.append("\n温度：");
115             }
116             // 匹配温度，注：温度被包含在<p class=\"tem tem2\"> <span> 和 </span><i>中
117             p = Pattern.compile("(.*)(<p class=\"tem tem2\"> <span>)(.*?)(</span><i>)(.*)");
118             m = p.matcher(str1);
119             if(m.matches()){
120                 str2 = m.group(3);
121                 buffer.append(str2);
122                 buffer.append("°~");
123             }
124             p = Pattern.compile("(.*)(<p class=\"tem tem1\"> <span>)(.*?)(</span><i>)(.*)");
125             m = p.matcher(str1);
126             if(m.matches()){
127                 str2 = m.group(3);
128                 buffer.append(str2);
129                 buffer.append("°\n风力：");
130             }
131             // 匹配风，注：<i> 和 </i> 中
132             p = Pattern.compile("(.*)(<i>)(.*?)(</i>)(.*)");
133             m = p.matcher(str1);
134             if(m.matches()){
135                 str2 = m.group(3);
136                 buffer.append(str2);
137             }
138         }
139         return buffer.toString();
140     }
141
142     /**
143      *  对以上两个方法进行封装。
144      * @return
145      */
146     public static String getTodayTemperatureInfo() {
147         // 调用第一个方法，获取html字符串
148         String html = httpRequest("http://www.weather.com.cn/html/weather/101280101.shtml");
149         // 调用第二个方法，过滤掉无用的信息
150         String result = htmlFiter(html);
151
152         return result;
153     }
154
155     /**
156      * 测试
157      * @param args
158      */
159     public static void main(String[] args) {
160         String info = getTodayTemperatureInfo();
161         System.out.println(info);
162     }
163 }

【详解】

34-49行：通过url获取网页的源码，没什么好说的。

96行：在网页上按F12，查看"今天"的html代码，发现如下图，所以我们第一步就是要过滤掉除这一段html代码外的东西。

　　(.*)(<li class=\‘dn on\‘ data-dn=\‘7d1\‘>)(.*?)(</li>)(.*) 这个正则表达式，很容易看出可以分为下面5组：

　　(.*)　　　　　　　　　　　　　　　　　　　　　　　：匹配除换行符外任意东西0-N次

　　(<li class=\‘dn on\‘ data-dn=\‘7d1\‘>)　　　　：匹配中间那段heml代码一次

　　(.*?)　　　　　　　　　　　　　　　　　　　　　　　 : .*?为匹配的懒惰模式，意思是匹配除换行符外任意东西尽可能少次

　　(</li>)　　　　　　　　　　　　　　　　　　　　　　：匹配中间那段html代码一次

　　(.*)　　　　　　　　　　　　　　　　　　　　　　　：匹配除换行符外任意东西0-N次

　　这样，我们就可用m.group(3)拿到匹配中间（.*?）的那一串代码了。即我们需要的“今天”的天气的代码。

101行：中间那一段代码拿出来后如下图所示、还有很多无用的标签。我们要想办法继续除去。方法同上。

106行：手动拼接上我们需要的字符串。

经过以上的处理，就完成了一个简单的爬取啦。

中间正则表达式部分最不满意，各路网友如果有好的建议麻烦留下宝贵的评论，感激不尽~

原文地址：https://www.cnblogs.com/111testing/p/8152135.html

时间： 2024-10-10 04:41:42

java通过url抓取网页数据-----正则表达式的相关文章

java通过url抓取网页数据

在很多行业中,要对行业数据进行分类汇总,及时分析行业数据,对于公司未来的发展,有很好的参照和横向对比.所以,在实际工作,我们可能要遇到数据采集这个概念,数据采集的最终目的就是要获得数据,提取有用的数据进行数据提取和数据分类汇总. 很多人在第一次了解数据采集的时候,可能无从下手,尤其是作为一个新手,更是感觉很是茫然,所以,在这里分享一下自己的心得,希望和大家一起分享技术,如果有什么不足,还请大家指正.写出这篇目的,就是希望大家一起成长,我也相信技术之间没有高低,只有互补,只有分享,才能使彼此更加成

java抓取网页数据，登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类

【iOS】正则表达式抓取网页数据制作小词典

应用程序不一定要自己去提供数据,有现成的数据学会去用才好. 网络很大,各种搜索引擎每天到处爬.本文通过正则表达式抓取网站的数据来做一个小词典. 一.正则表达式的使用 1. 确定匹配方案,即pattern 2. 用pattern实例化NSRegularExpression 3. 用匹配方法开始匹配. 匹配一次:可以使用firstMatch方法匹配多次:可以用matchs方法正则表达式对照表:(在网上找到了一个很不错的表,正则表达式各个语言通用) http://www.jb51.net/shou

scrapy递归抓取网页数据

scrapy spider的parse方法可以返回两种值:BaseItem,或者Request.通过Request可以实现递归抓取. 如果要抓取的数据在当前页,可以直接解析返回item(代码中带**注释的行直接改为yield item): 如果要抓取的数据在当前页指向的页面,则返回Request并指定parse_item作为callback: 如果要抓取的数据当前页有一部分,指向的页面有一部分(比如博客或论坛,当前页有标题.摘要和url,详情页面有完整内容)这种情况需要用Request的meta

使用HtmlAgilityPack批量抓取网页数据

[转]使用HtmlAgilityPack批量抓取网页数据相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息. 抓取网页 HtmlAgilityPack.HtmlDocument htmlDoc; if (!string.IsNullOrEmpty(登录URL)) { htmlDoc = htmlWeb.Load(登录URL, 提交的用户验证信息,

【.NET】使用HtmlAgilityPack抓取网页数据

原文:[.NET]使用HtmlAgilityPack抓取网页数据刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么严谨,在codeplex里有一个开源项目HtmlAgilityPack,提供了用XPath解析HTML文件,下面掩饰如何使用该类库的使用首先说下XPath路径表达式 XPath路径表达式用来选取XML文档中的节点或节点集的 1.术语:

java中用jsoup抓取网页源码，并批量下载图片

一.导入jsoup的核心jar包jsoup-xxx.jar jar包下载地址:jsoup-1.8.2.jar 中文API地址:http://www.open-open.com/jsoup/parsing-a-document.htm 二.java中用jsoup抓取网页源码,并批量下载图片 package com.dgh.test; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; i

Asp.net 使用正则和网络编程抓取网页数据(有用)

Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </summary> /// <param name="strUrl">採集地址</param> /// <param name="Begin">開始字符</param> /// <param name="End">结束字符</param&g

Asp.net 使用正则和网络编程抓取网页数据(实用)

Asp.net 使用正则和网络编程抓取网页数据(实用) /// <summary> /// 抓取网页相应内容 /// </summary> /// <param name="strUrl">采集地址</param> /// <param name="Begin">开始字符</param> /// <param name="End">结束字符</param&g