java解析网页的内容

有时候,我们需要在java程序中获取一个连接,然后解析连接后,获取连接返回的内容结果来解析。准确的说是解析一个链接。

以下代码时解析百度首页的链接,获取的html代码的效果:

  

 1      public static List<String> getURLCollection(String address){
 2             List<String> list = new LinkedList<String>();
 3             try{
 4                 URL url = new URL(address);
 5                 URLConnection conn = url.openConnection();
 6                 conn.connect();
 7                 InputStream in = conn.getInputStream();
 8                 InputStreamReader input = new InputStreamReader(in, "UTF-8");
 9                 BufferedReader buf = new BufferedReader(input);
10                 String nextLine = buf.readLine();
11
12                 while(nextLine != null){
13                     list.add(nextLine);
14                     nextLine = buf.readLine();
15                 }
16             }catch(Exception e){
17                 e.printStackTrace();
18             }
19             return list;
20         }
21
22         public static void main(String[] args){
23             String address = "http://www.baidu.com";
24             List<String> list = getURLCollection(address);
25             String buf = "";
26             for(String str : list){
27                 buf+=str+"\n";
28             }
29
30             System.out.println(buf);
31         }

效果如果:

这样就将百度的html的代码抓取出来了哈。

话说有这个有神马用?

举个列子吧,比如我们访问第三方链接的时候,第三方返回一段xml,我们需要他们提供的返回值提供数据进行判断等。从而进行使用啦...

时间: 2024-10-13 21:48:19

java解析网页的内容的相关文章

java 获取网页指定内容

import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; public class HttpTest { String urlString; public static void main(String[] args) throws Exception { HttpTest client = new HttpTes

java 获取网页指定内容-2(实践+修改)

import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; import java.util.regex.Matcher; import java.util.regex.Pattern; import java.util.Arrays; public class Weather { String urlString;

Python爬虫解析网页的4种方式 值得收藏

用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. ? 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存中,这个时候它的内容其实是一堆HTML,然后再对这些HTML内容进行解析,按照自己的想法提取出想要的数据,所以今天我们主要来讲四种在Python中解析网页HTML内容的方法,各有千秋,适合在不同的场合下使用. 首先我们随意找到一个网址,这时我脑子里闪过了豆瓣这个网站.嗯,毕竟是用Python构建的网

使用java开源工具httpClient及jsoup抓取解析网页数据

今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下 公历时间:2016年04月11日 星期一 农历时间:猴年三月初五 天干地支:丙申年 壬辰月 癸亥日 宜:求子 祈福 开光 祭祀 安床 忌:玉堂(黄道)危日,忌出行 主要包括公历/农历日期,以及忌宜信息的等.但是手里并没有现成的数据可供使用,怎么办呢? 革命前辈曾经说过,没有枪,没有炮,敌(wang)人(luo)给我们造!网络上有很多现成的在线 万年历应用可供使用,虽然没有现成接口,但是我们可以伸出手来,自己去拿.也就是

Android中如何解析网页,获取网页中的元素内容

问题: 由于android的WebView等相关类没有提供解析html网页内容的接口,我们想要获取网页的内容并解析出我们想要的元素内容,用android的固有API是没办法了. 这里我提供两种解析html思路:第一种,使用第三方解析html库:第二种,使用JAVA与JS回调,通过JS解析html. 之前研究了一下htmlparser这个开源库,但是发现和android提供的库有冲突,但其在纯java应用程序下是可行的. htmlparser下载地址:http://htmlparser.sourc

Java学习之Xml系列五:SAX解析——搜索xml内容

本文对SAX解析进一步说明. 另外主要给利用SAX解析方法找到指定条件(如标签名称)的xml文档内容. 首先按需要介绍一下DefaultHandler. DefaultHandler类是SAX2事件处理程序的默认基类.它继承了EntityResolver.DTDHandler.ContentHandler和ErrorHandler这四个接口.包含这四个接口的所有方法,所以我们在编写事件处理程序时,可以不用直接实现这四个接口,而继承该类,然后重写我们需要的方法.(注意:ContentHandler

使用Jsoup解析网页

之前已经发表过一篇使用HtmlParser类来解析视频网站的教程 http://blog.csdn.net/gfd54gd5f46/article/details/54960538 我发现htmlparser类太旧了,而且用起来语法也不清晰. 所以我又找来一个更强大的解析网页的工具类:Jsoup 来帮助我们制作更强大的网络爬虫 下载Jsoup类       jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS

使用HttpParser类解析网页

之前发过一篇文章:利用String类制作简单的网络爬虫 http://blog.csdn.net/gfd54gd5f46/article/details/54729874 这是是基于String类里的substring()方法对字符串进行截取,从而得到想要的内容. 这种方法如果只是截取简单数据的话,还是可以实现的. 但是如果我要获取指定的数据(这个数据可能成千上万条),这时后用String类里面的方法就会很麻烦,而且要编写的代码会变的非常多. 现在我们要引用一个网页解析的工具类来帮助我们更方便的

Java解析HTML之HTMLParser使用与详解

HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索.对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足.    这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习HTMLParser的朋友们有所帮助.(不过当年高考本人语文只比及格高一分,所以文法方面的问题还希望大家多多担待)        HTMLParser的核心模块是org.htmlparser.Par