java扒取网页,获取所需要内容列表展示

1.扒取原网页内容:

  

2.本地展示效果

  

3.代码

  

 3     @ResponseBody
 4     public Map<String, Object> findGuoWuYaoWen(HttpServletRequest request, ModelMap model, String area,String city) {
 5         Map<String, Object> map = new HashMap<String, Object>();
 6         Map<String, Object> result = new HashMap<String, Object>();
 7         List<NationalNews> nationalList = new ArrayList<>();
 8         String title,newsUrl,time;
 9
10         Elements elements = getUrlElements();
11         System.out.println("========================"+elements.toString());
12         List<Element> subList = elements.subList(0, 9);
13         for (Element element : subList) {
14              String  title123 = element.text();
15              title =title123.substring(0, title123.length()-10) ;
16              newsUrl = element.select("a").attr("href");
17              if(!newsUrl.contains("www")){
18                  newsUrl="http://www.gov.cn"+newsUrl;
19              }
20              time = title123.substring(title123.length()-10,title123.length());
21
22              NationalNews nationalNews = new NationalNews(title, newsUrl, time);
23
24              System.out.println(title+"=========================="+newsUrl+"=========================="+time);
25
26              nationalList.add(nationalNews);
27         }
28         result.put("dataList", nationalList);
29         return result;
30     }
 1    private Elements getUrlElements() {
 2         System.out.println("=======================================抓取国家政府网内容任务开始了=======================================");
 3         String url = "http://www.gov.cn/pushinfo/v150203/index.htm";
 4         CloseableHttpClient httpClient = HttpClients.createDefault();
 5         Elements elementsByTag = null;
 6
 7         try {
 8             HttpGet httpGet = new HttpGet(url);
 9             CloseableHttpResponse response = httpClient.execute(httpGet);
10             try {
11                 HttpEntity entity = response.getEntity();
12                 //设置编码格式否则乱码
13                 String html = new String(EntityUtils.toString(entity).getBytes("iso8859-1"));
14
15                  Document document = Jsoup.parse(html);
16                  elementsByTag = document.getElementsByTag("li");
17             }finally {
18                  response.close();
19             }
20         } catch (ClientProtocolException e1) {
21             e1.printStackTrace();
22         } catch (IOException e1) {
23             e1.printStackTrace();
24         }finally {
25             // 关闭连接,释放资源
26             try {
27                 httpClient.close();
28             } catch (IOException e) {
29                 e.printStackTrace();
30             }
31         }
32
33         return elementsByTag;
34     }

原文地址:https://www.cnblogs.com/irishua/p/11099026.html

时间: 2024-10-08 23:34:28

java扒取网页,获取所需要内容列表展示的相关文章

java 抓取网页图片

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86

java抓取网页数据,登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类

Java抓取网页数据(原网页+Javascript返回数据)

转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同站点对数据的显示方式略有不同! 本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数据. 一.抓取原网页. 这个样例我们准备从http://ip.chinaz.com上抓取ip查询的结果: 第一步:打开这个网页,然后输入IP:111.142.

Java抓取网页数据(原来的页面+Javascript返回数据)

转载请注明出处. 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因.我们须要採集某个站点的数据.但因为不同站点对数据的显示方式略有不同! 本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据.(2)抓取网页Javascript返回的数据. 一.抓取原网页. 这个样例我们准备从http://ip.chinaz.com上抓取ip查询的结果: 第一步:打开这个网页.然后输入IP:111.142.

Python-18:多线程扒取百度贴吧帖子内容源码

源码中附注释,直接放源码哈. #-*-coding:utf8-*- from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import json #这三行是用来解决编码问题的 import sys reload(sys) sys.setdefaultencoding('utf-8') '''重新运行之前请删除content.txt,因为文件操作使用追加方式,会导致内容

JAVA 抓取网页之GET方法

HTTP请求方式有GET,POST两种.这里使用GET方式,请求"https://www.baidu.com". 引进 appache 的httpclient包,下载地址http://hc.apache.org/httpcomponents-client-4.5.x/download.html 先贴代码 package Test; import java.io.IOException; import org.apache.http.HttpEntity; import org.apac

java扒取天气网站的数据

1:由于天气apk接口不稳定所以经常获取不到信息.于是就动手写一个扒取天气网站上的数据然后做成json,apk直接调用服务器上扒取的数据增加稳定性. 2:项目主要是用servlet然后正则表达式来提取网站信息. 3:我觉得比较难得地方就是如何写正确的正则来提取出需要的信息,以下记录每个接口中需要的正则 3.1 获取页面省份的编号 //page为需要提取信息的源信息 public static Hashtable<String, String>parseProvincePage(String p

走过路过不要错过~java语言抓取网页想要的内容

学习了正则之后,打算用java玩一玩,所以就决定用它来实现一个好玩的idea import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; //和网络相关的操作 import java.net.URL; import java.net.URLConnection; import java.util.regex.Matcher; import java.util.regex.

Jsoup简介——使用Java抓取网页数据

概述 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML: 2. 使用DOM或CSS选择器来查找.取出数据: 3. 可操作HTML元素.属性.文本: jsoup是基于MIT协议发布的,可放心使用于商业项目. 关于Jsoul的更多介绍,请访问Jsoul的官网:http://jsoup.o