Java爬虫项目实战(一)

目的:

通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village)

主网站链接:

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html

主要jar包:

http://jsoup.org/packages/jsoup-1.8.1.jar

之前一节我们说过java爬虫从网络上利用jsoup获取网页文本,也就是说我们可以有三种方法获取html,一是根据url链接,而是从本地路径获取,三是通过字符串解析成html文档

在这里,我们利用前两种搭配使用:

先看本地是否存在需要的网页,如果不存在就通过url获取并保存在本地(下次就可以不需要重新从网络加载)

我们先建一个类叫做Html类,具体内容如下:

package Product;
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.ArrayList;
import java.util.Arrays;

import org.jsoup.*;
import org.jsoup.nodes.*;
import org.jsoup.select.*;
public class Html {

     //根据url从网络获取网页文本
    public Document getHtmlTextByUrl(String url)
    {
        Document doc = null;
        try {
            //doc = Jsoup.connect(url).timeout(5000000).get();
            int i = (int) (Math.random()*1000); //做一个随机延时,防止网站屏蔽
while(i!=0) { i--; } doc= Jsoup.connect(url).data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(300000) .post(); } catch (IOException e) { e.printStackTrace(); try {     doc = Jsoup.connect(url).timeout(5000000).get(); } catch (IOException e1) { // TODO Auto-generated catch block  e1.printStackTrace(); } } 

return doc; } 

//根据本地路径获取网页文本,如果不存在就通过url从网络获取并保存 

public Document getHtmlTextByPath(String name,String url) {     String path = "D:/Html/" +name+".html";    Document doc = null ;     File input = new File(path);    String urlcat = url; try {      doc = Jsoup.parse(input, "GBK"); if(!doc.children().isEmpty()) {   doc=null; System.out.println("已经存在"); } } catch (IOException e) {   System.out.println("文件未找到,正在从网络获取.......");    doc = this.getHtmlTextByUrl(url);    //并且保存到本地    this.Save_Html(url, name); } return doc; }  //此处为保存网页的函数
//将网页保存在本地(通过url,和保存的名字)
    public  void Save_Html(String url,String name) {
                  try {
                       name =  name+".html";
                     // System.out.print(name);
                     File dest = new File("D:/Html/" +name);//D:\Html
                      //接收字节输入流
                      InputStream is;
                      //字节输出流
                      FileOutputStream fos = new FileOutputStream(dest);

                     URL temp = new URL(url);
                     is = temp.openStream();

                     //为字节输入流加缓冲
                     BufferedInputStream bis = new BufferedInputStream(is);
                     //为字节输出流加缓冲
                     BufferedOutputStream bos = new BufferedOutputStream(fos);

                     int length;

                     byte[] bytes = new byte[1024*20];
                     while((length = bis.read(bytes, 0, bytes.length)) != -1){
                         fos.write(bytes, 0, length);
                     }

                     bos.close();
                     fos.close();
                     bis.close();
                     is.close();
                 } catch (IOException e) {
                     e.printStackTrace();
                 }
             }


这样通过Html这个类,调用getHtmlTextByPath函数,传入我们的链接和想要保存的名称,接下就可以对这个网页文本提取信息

并将整个网页下载到我们的本地。

看到我们的网站是这样的:

利用谷歌浏览右键检查元素,我们注意观察黄色标记的部分:

     

我们发现这些文本信息和超链接信息在tr 下的td下的a标签内,利用我们的jsoup可以直接获取到这些信息,详情请看:

//根据元素属性获取某个元素内的elements列表
    public Elements getEleByClass(Document doc,String className)
    {
        Elements elements= null;           elements = doc.select(className);//这里把我们获取到的html文本doc,和工具class名,注意<tr class="provincetr">       return elements;   //此处返回的就是所有的tr集合 }

我们在调用的时候,就直接把我们获取的html文本,以及"tr.provincertr"作为参数传入,在来解析tr集合内部的信息,

也就是td中两个a标签href和文本内容:比如href="12.html"  北京

代码如下:

//获取省 、市 、县等的信息
    public ArrayList getProvince(String name,String url ,String type)
    {    ArrayList result= new ArrayList();
        //"tr.provincetr"
         String classtype = "tr."+type+"tr";
         //从网络上获取网页
        // Document doc = this.getHtmlTextByUrl(url);
         //从本地获取网页,如果没有则从网络获取
         Document doc2 = this.getHtmlTextByPath(name,url);
         System.out.println(name);
         if(doc2!=null){
         Elements es =this.getEleByClass(doc2,classtype);  //tr的集合
        for(Element e : es)   //依次循环每个元素,也就是一个tr
        {
            if(e!=null){
            for(Element ec : e.children())  //一个tr的子元素td,td内包含a标签
            {
                String[] prv = new String[4];   //身份的信息: 原来的url(当前url)  名称(北京) 现在url(也就是北京的url)  类型(prv)省
                if(ec.children().first()!=null)
                {
                //原来的url
                prv[0]=url;  //就是参数url
                //身份名称
                System.out.println(ec.children().first().ownText());
                prv[1]=ec.children().first().ownText();  //a标签文本  如:北京
                //身份url地址
                //System.out.println(ec.children().first().attr("href"));
                //http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html
                String ownurl=ec.children().first().attr("abs:href");  //北京的url
                //因为如果从本地取得话,会成为本地url,所以保留第一次从网络上的url,保证url不为空
                if(ownurl.length()<10)
                {   connectOrcl c = new connectOrcl();
                    ownurl = c.selectOne(prv[1]); //从数据库中取,这是另一个调用数据库函数,根据名称取url
                }
                prv[2]=ownurl;  //如:北京自己的url
                System.out.println(prv[2]);
                //级别
                prv[3]=type; //就是刚刚传的类型,后面会有city 、county等
              //将所有身份加入list中
                result.add(prv);}
            }}
        }
    }
        return result;  //反回所有的省份信息集合,存数据库,字段类型为: baseurl  name ownurl levelname(type) updatetime
    }

 

时间: 2024-10-13 23:52:33

Java爬虫项目实战(一)的相关文章

Java Drp项目实战——Drp知多少

是什么 Drp是Distribution Resource Planning的缩写,意思是分销资源计划,它是用来管理企业的运行于Internet上的分销网络的系统,是以商业流程优化为基础,它的核心是销售和库存总和控制.这个分销系统或者说是分销体系,它的使用者包括一个大型企业的内部.各个分公司.各级分销商等,它的作用就在于即时的掌握各地的销售信息流.财务资金流.库存信息等一些功能. 产生背景是什么 知道了Drp是什么,我们还需要了解下它的开发背景是什么,为什么要开发这样的一个系统呢. 这个原因还是

JAVA Drp项目实战—— Unable to compile class for JSP 一波三折

交代下背景,电脑系统是64位的,用的是64位的Tomcat,安装是32位的Myeclipse10,java环境也是32位的,Tomcat在开始启动时会报这样一个错误,"Can't load IA 64-bit .dll on a AMD32-bit platform",但是不耽误使用,最近在敲Drp项目中用到了底层接口的几个方法,这个错误导致项目不能正常运行了,所以就将64位的Tomcat换成了与java环境一样的32位的Tomcat,上面的问题就顺利解决了,于是继续自己的开发,但是当

Go语言之高级篇Beego框架之爬虫项目实战

一.爬虫项目 1.爬虫基础 a.网页上面会有相同的数据 b.去重处理 布隆过滤器哈希存储 c.标签匹配: 正则表达式beautiful soup或lxml这种标签提取库 d.动态内容 phantomjs selenium 二. 原文地址:https://www.cnblogs.com/nulige/p/10386915.html

Java Drp项目实战——Web应用server

引言 Web应用server如今非常多人都在用,但是究竟什么是Web应用server呢,它与Webserver有什么关系,它与应用server又是什么关系,它是他们两种中的当中一种,还是简单的两种server的组合呢? 要搞明确这个问题,我们得先知道什么是Webserver以及什么是应用server,如今我们就来看下这两个server. Webserver Webserver(WebServer)能够解析(handles)HTTP协议.当Webserver接收到一个HTTP请求(request)

Java Drp项目实战—— 环境搭建

概要 我们要開始一个关于Java项目的开发,那么我们就须要搭建一个关于Java开发的环境,那么搭建一个Java开发环境,都须要些什么东东,又有些什么注意事项呢. 过程 我先将我搭建Java环境的软件和开发用到的软件列一下,Jdk.Jre.MyEclipse.Oracle.Tomcat.PL/SQLDeveloper.PowerDesign.Rational Rose. 在搭建Java之前,我们必须先将这些软件都安装到我们的电脑上.怎样安装我们这里就仅仅说两个,一个Java执行环境包含Jdk和Jr

Java Drp项目实战——Web应用服务器

引言 Web应用服务器现在很多人都在用,可是到底什么是Web应用服务器呢,它与Web服务器有什么关系,它与应用服务器又是什么关系,它是他们两种中的其中一种,还是简单的两种服务器的组合呢? 要搞明白这个问题,我们得先知道什么是Web服务器以及什么是应用服务器,现在我们就来看下这两个服务器. Web服务器 Web服务器(WebServer)可以解析(handles)HTTP协议.当Web服务器接收到一个HTTP请求(request),会返回一个HTTP响应(response),比如送回一个HTML页

Java Drp项目实战——Servlet

由来 在讲解Servlet之前需要先介绍一个词语CGI即Common GatewayInterface是通用网关接口的意思,它提供一个计算机程序同HTTP协议或者WWW服务的接口,也就是人机交互接口的意思.Web应用运行在服务器上,客户端的请求,刚开始,是通过CGI程序实现数据在Web上的传输,但是对于客户端做出的每个请求,必须创建CGI程序的一个新实例,这将占用大量的内存,正是为了解决这个问题,我们的Servlet应运而生. Servlet是java编写的一个应用程序,在服务器上运行,处理请求

CP2044-深入Java Web项目实战精讲(2套实战项目)

随笔背景:在很多时候,很多入门不久的朋友都会问我:我是从其他语言转到程序开发的,有没有一些基础性的资料给我们学习学习呢,你的框架感觉一下太大了,希望有个循序渐进的教程或者视频来学习就好了.对于学习有困难不知道如何提升自己可以加扣:1225462853进行交流得到帮助,获取学习资料. 下载地址:http://pan.baidu.com/s/1eQcrfMA 课程目标:1.把握Shiro的工作原理 2.把握Shiro的体系机构和运行流程 3.把握Shiro的核心组件和使用 4.实现Shiro和JSP

简单爬虫项目实战(一)

概述 最近自己想搞一个小的项目,这个项目我们就先从爬虫开始,爬取直播吧的NBA滚动新闻,再存入数据库.先写个简单点的,后期再不断的优化下. 准备 直播吧对于喜欢看球的朋友肯定不陌生,https://www.zhibo8.cc/,打开我们看到如下界面, 我们选择NBA新闻tab,然后选择滚动新闻, 我们按下F12,分析下这个请求 我们试着来直接请求下这个地址 哈哈,太好了,这个就是页面上的内容啊,我们就要解析这个数据,就能得到所有数据,是不是很简单呢 代码 conn = pymysql.conne