Java实现简单地抓取开源中国主页的相关数据

代码示例

package demo0806;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Set;

public class ScanTitleFromWebPage {

    private String website;
    private Map<String,String> recentShareCode=new HashMap<String,String>();
    private Map<String,String> hotShareCode=new HashMap<String,String>();

    
    public ScanTitleFromWebPage(String website) {
        this.website=website;
    }
    
    public String ScanWebForTitle() {
        InputStream inputStream=null;
        String title=null;
        try {
            //创建URL对象,例如:百度搜索中国好声音
            //wd关键词的值即为"中国好声音"的UTF-8编码,
            //可以使用URLEncoder对字符进行编        
            URL url = new URL(website);
            
            //创建URLConnection对象
            URLConnection openConnection = url.openConnection();
            
            //有些网站不允许java作为客户端访问
            openConnection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

            
            //获取网页信息编码类型            
            String headerField = openConnection.getHeaderField("Content-Type");
            int indexOf = headerField.indexOf("charset=");
            String encoding = headerField.substring(indexOf+8);
            
            //获取URLConnection对象的输入流
            inputStream=openConnection.getInputStream();
            
            //通过IO来读取流,写入文件
            String line=null;
            InputStreamReader inputStreamReader;
                        inputStreamReader = new InputStreamReader(inputStream,encoding);
            BufferedReader bufferedReader =
                    new BufferedReader(inputStreamReader);
            int flagOfRecentShareCode=0;
            int flagOfHotShareCode=0;
            String recentCode=null;
            String recentHref=null;
            String hotCode=null;
            String hotHref=null;
            while((line=bufferedReader.readLine())!=null) {
                int start=-1;
                int end=-1;
                if((start=line.indexOf("<title>"))!=-1) {
                    end=line.indexOf("</title>");
                    title = line.substring(start+7, end);
                }
                else if(line.indexOf("NewCodeList")!=-1) {
                    flagOfRecentShareCode=1;
                }
                else if(line.indexOf("HotCodeList")!=-1) {
                    flagOfRecentShareCode=0;
                    flagOfHotShareCode=1;
                }
                else if(line.indexOf( "</div>")!=-1) {
                    flagOfHotShareCode=0;
                }
                else if((start= line.indexOf("href="))!=-1&&flagOfRecentShareCode==1) {
                    end=line.indexOf(" target");
                    recentHref=line.substring(start+6, end-1);
                }
                else if((start= line.indexOf("href="))!=-1&&flagOfHotShareCode==1) {
                    end=line.indexOf(" target");
                    hotHref=line.substring(start+6, end-1);
                }
                else if((start= line.indexOf("title="))!=-1&&flagOfRecentShareCode==1) {
                    end=line.indexOf(">");
                    recentCode=line.substring(start+7, end-1);
                    recentShareCode.put(recentCode, recentHref);
                }
                else if((start= line.indexOf("title="))!=-1&&flagOfHotShareCode==1) {
                    end=line.indexOf(">");
                    hotCode=line.substring(start+7, end-1);
                    hotShareCode.put(hotCode, hotHref);
                }
            }
            inputStreamReader.close();
        
        } catch (IOException e) {
            System.err.println("无法下载");
            e.printStackTrace();
        } finally {
            if(inputStream!=null) {
                try {
                    inputStream.close();
                } catch(Exception ex) {
                        //不处理
                }
            }
        }
        return title;
    }
    
    public static void main(String[] args) throws InterruptedException, IOException {
        String website="http://www.oschina.net";
        ScanTitleFromWebPage scanTitleFromWebPage;
        scanTitleFromWebPage=new ScanTitleFromWebPage(website);
        String title = scanTitleFromWebPage.ScanWebForTitle();
        File file=new File("OSChomepage.html");
        FileOutputStream fileOutputStream = new FileOutputStream(file);
        if(title!=null) {
            String str="网站标题为:"+title;
            byte[] bytes = str.getBytes();
            fileOutputStream.write(bytes);
            fileOutputStream.write(‘\n‘);
            System.out.println(str);
        }
        Map<String,String> recentShareCode=scanTitleFromWebPage.recentShareCode;
        Map<String,String> hotShareCode=scanTitleFromWebPage.hotShareCode;
        Set<Entry<String, String>> entrySet;
        Iterator<Entry<String, String>> iterator;
        String key=null;
        String value=null;
        Entry<String, String> next=null;
        
        fileOutputStream.write("----------------最新分享代码有如下----------------".getBytes());
        fileOutputStream.write(‘\n‘);
        System.out.println("----------------最新分享代码有如下----------------");
        entrySet= recentShareCode.entrySet();
        iterator= entrySet.iterator();
        while(iterator.hasNext()) {
            next = iterator.next();
            key=next.getKey();
            value=next.getValue();
            String str=key+"\t"+"("+value+")";
            byte[] bytes = str.getBytes();
            fileOutputStream.write(bytes);
            fileOutputStream.write(‘\n‘);
            System.out.println(key+"\t"+"("+value+")");
        }
        fileOutputStream.write("----------------本周最热门代码有如下----------------".getBytes());
        fileOutputStream.write(‘\n‘);
        System.out.println("------------------本周最热门代码有如下-----------------");
        entrySet= hotShareCode.entrySet();
        iterator= entrySet.iterator();
        while(iterator.hasNext()) {
            next = iterator.next();
            key=next.getKey();
            value=next.getValue();
            String str=key+"\t"+"("+value+")";
            byte[] bytes = str.getBytes();
            fileOutputStream.write(bytes);
            fileOutputStream.write(‘\n‘);
            System.out.println(key+"\t"+"("+value+")");
        }
        fileOutputStream.close();
    }
}

运行结果

网站标题为:开源中国 - 找到您想要的开源项目,分享和交流
----------------最新分享代码有如下----------------
iOS 一个函数同时返回多个参数的策略	(http://www.oschina.net/code/snippet_865986_50059)
jquery插件--ajaxfileupload.js	(http://www.oschina.net/code/snippet_105637_50057)
计蒜客-挑战难题-6	(http://www.oschina.net/code/snippet_587996_50055)
图片延迟加载简单原理	(http://www.oschina.net/code/snippet_1590754_50058)
我该如何书写一段能实现早睡早起的代码?	(http://www.oschina.net/code/snippet_1168184_50061)
shell获取当前脚本执行绝对路径	(http://www.oschina.net/code/snippet_1988965_50056)
冒泡排序算法java实现	(http://www.oschina.net/code/snippet_587996_50052)
js脚本控制翻页控件概述。这个控件主要用来翻页的一个效果,如果有喜欢的可以那去参考,呵呵	(http://www.oschina.net/code/snippet_1862064_50060)
选择排序算方法java实现	(http://www.oschina.net/code/snippet_587996_50053)
计蒜客-挑战难题-5	(http://www.oschina.net/code/snippet_587996_50054)
------------------本周最热门代码有如下-----------------
python实现爬图,不要再爬妹子图了,太没品了	(http://www.oschina.net/code/snippet_2371155_49889)
通过银行卡号取得银行名字	(http://www.oschina.net/code/snippet_1252640_49997)
Java反射基础,构建框架(重要)	(http://www.oschina.net/code/snippet_2345495_49988)
spring boot + mybatis+ spring mvc整合	(http://www.oschina.net/code/snippet_2325859_49871)
全医通 - HTML5开发,单页集成版	(http://www.oschina.net/code/snippet_2287693_50012)
微信公众号支付	(http://www.oschina.net/code/snippet_1754599_49966)
我的Eclipse代码格式化风格	(http://www.oschina.net/code/snippet_1584959_49953)
python简单爬虫	(http://www.oschina.net/code/snippet_2391943_49998)
获取情敌电脑内照片神器	(http://www.oschina.net/code/snippet_2425035_49995)
12306火车票API接口QQ 89914505	(http://www.oschina.net/code/snippet_811693_49880)
时间: 2024-10-14 02:24:54

Java实现简单地抓取开源中国主页的相关数据的相关文章

Java实现简单网页抓取

需求说明:使用Java抓取网页信息,并以字符串的形式返回. 使用Java代码实现: package net.ibuluo.spider.util; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.Reader; import java.net.MalformedURLException; import java.net.URL; /**

java使用htmlunit工具抓取js中加载的数据

htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.这个没有界面的浏览器,运行速度也是非常迅速的.采用的是Rhinojs引擎.模拟js运行. 说白了就是一个浏览器,这个浏览器是用Java写的无界面的浏览器,正因为其没有界面,因此执行的速度还是可以滴,HtmlUnit提供了一系列的API,这些API可以干的功能比较多,如表单的填充,表单的提交,模仿点击链接,由于内置了Rhinojs

利用Java实现简单的抓取网页数据并存放于plist中

第一步:下载Firefox,安装Firebug 进入测试网站,http://lol.duowan.com/hero/,打开Firebug,在一个英雄头像上点击右键 使用Firebug查看元素, 在 <ul id="champion_list"> 一行右键点击复制HTML获得所有数据的信息. 利用Xcode创建一个lol.html文件保存代码, 打开文件发现乱码,添加编码,如图所示 第二步:打开eclipse,创建project,new class , 导入jsoup-1.7

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析.正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来.现在做一个概要的介绍和演示. 动机 采集豆瓣电影数据包括电影详情页数据和电影的短评数据. 电影详情页如下图所示 需要保存这些详情字段如导演.编剧.演员等还有图中右下方的标签. 短评页面如下图所示 需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称.评论内容等. 数据库设计 有了如上的需求,需要设计表,其实很简单,

Java广度优先爬虫示例(抓取复旦新闻信息)

一.使用的技术 这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE)为intelij 13.1,Jar包管理工具为Maven,不习惯用intelij的同学,也可以使用eclipse新建一个项目. 二.爬虫基本知识 1.什么是网络爬虫?(爬虫的基本原理) 网络爬虫,拆开来讲,网络即指互联网,互联网就像一个蜘蛛网一样,爬虫就像是蜘蛛一样可以到处爬来爬去,把

爬虫技术(四)-- 简单爬虫抓取示例(附c#代码)

这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string> todo :进行抓取的网址的集合 List<string> visited :已经访问过的网址的集合 下面实现的是,给定一个初始地址,然后进行爬虫,输出正在访问的网址和已经访问的网页的个数. 需要注意的是,下面代码实现的链接匹配页面的内容如图一.图二所示: 图一: 图二: 简单代码示范如下:

简单爬虫-抓取博客园文章列表

原文:简单爬虫-抓取博客园文章列表 如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了.爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方. 大部分使用httpRequst就能完成,不管是否添加了口令.随即码.请求参数.提交方式get或者post.地址来源.多次响应等等.但是有些网站使用ajax如果是返回json或固定格式的也好处理,如果是很复杂的,可以使用webbrower控件进行抓取,最后正则解析,获取所需要的数据即

arpspoof+driftnet+ ARP欺骗简单图片抓取

arpspoof+driftnet+ ARP欺骗简单图片抓取 driftnet是一款简单而使用的图片捕获工具,可以很方便的在网络数据包中抓取图片.该工具可以实时和离线捕获指定数据包中是图片 环境 受害ip:192.168.228.130 攻击ip:192.168.228.129 网关:192.168.228.2 条件 1,开启或关闭IP转发 2,向被攻击机器发送arp欺骗数据包,冒充网关 3,向网关发送arp数据欺骗网关,冒充被攻击机器 4,运行driftnet截取图片 开启IP转发功能 cat

python 爬虫抓取 MOOC 中国课程的讨论区内容

一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy 框架,惊呆了,真棒! 网上很多关于 selenium 库的详细介绍,这里略过此方法. 二: requests 库 编写一个爬虫小脚本,requests 库极为方便.接下来进入正题,如何抓取 MOOC 中国上课程的讨论内容! 1. 分析网页数据 打开你需要抓取数据的课程页面,点击讨论区之后页面加载讨