Android实战——jsoup实现网络爬虫,糗事百科项目的起步

Android实战——jsoup实现网络爬虫,爬糗事百科主界面


本篇文章包括以下内容:

  • 前言
  • jsoup的简介
  • jsoup的配置
  • jsoup的使用
  • 结语

前言

对于Android初学者想要做项目时,最大的烦恼是什么?毫无疑问是数据源的缺乏,当然可以选择第三方接口提供数据,也可以使用网络爬虫获取数据,这样就不用第三方数据作为支持。本来是打算爬一些购物网站的数据,由于他们的反爬做得好,所以没办法爬到数据,只能爬取糗事百科的数据,或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目,利用jsoup是完全没问题的

jsoup的学习需要结合前端的基础知识,爬取前端的数据,如果你学过JS,那么你可以自己完全不用看文档的情况下,使用该框架,因为其设计与JS的使用几乎相同,废话不多说,开车啦

jsoup的简介

使用项目原话:jsoup是一个Java库来处理实际的HTML。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法

项目地址:https://github.com/jhy/jsoup

中文文档:http://www.open-open.com/jsoup/

jsoup的配置

jsoup的配置很简单,需要在gradle中添加以下依赖

compile ‘org.jsoup:jsoup:1.10.2‘

由于jsoup需要获取网络数据,所以记得添加网络权限

<uses-permission android:name="android.permission.INTERNET" />

jsoup的使用

一、获取HTML

jsoup提供两种网络请求,get和post,使用代码也及其简单,我们首先爬取糗事百科首页的HTML。注意:由于是网络请求操作,必须放在子线程中运行,否则4.4以上的版本会报错

① get方式

new Thread() {
    @Override
    public void run() {
        super.run();
        try {
            Document doc = Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get();
            Log.e("一、HTML內容", doc.toString());
            }
        catch{
        }
    }
}.start();

② post方式

Document doc = Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

这里对post的参数介绍一下

  • connect:设置连接的Url
  • data:设置post的键值对数据
  • userAgent:设置用户代理(请求头的东西,可以判断你是PC还是Mobile端)
  • cookie:设置缓存
  • timeout:设置请求超时
  • post:发送post请求

既然已经获取HTML的Document对象了,接下来就是分析Html元素的时候了

二、获取Html元素

① 网页端

以糗事百科为例子,我们查看糗事百科首页的数据对应的Html元素是什么,我们可以通过F12,找到对应的Html元素

可以看到一个a标签就是文章详情的内容,我们可以通过这个a标签的class=”contentHerf”作为唯一标识来获取该链接,获取之后,继续爬取详情页的文章详细内容,所以我们通过爬取的a标签的链接进入该文章的详情页

当然也有一些详情页有图片的,我们可以通过图片的的class=”thumb”作为唯一标识来爬取图片里面的链接

由于糗事百科采用分页加载的情况,我们需要在爬取完第一张内容后,接着爬取第二章的内容,下面是糗事百科的分页Url的规则,很简单,我们可以通过一个循环就可以了

http://www.qiushibaike.com/8hr/page/1/
http://www.qiushibaike.com/8hr/page/2/
http://www.qiushibaike.com/8hr/page/3/
http://www.qiushibaike.com/8hr/page/4/
http://www.qiushibaike.com/8hr/page/5/

好了,分析完网页端之后,就应该在我们的Android端采用代码,将上面的步骤实现出来了

② Android端

通过上面的分析后,可以总结我们需要实现的步骤有:

  1. 爬取主页的详情页url
  2. 进入详情页爬取内容和图片
  3. 循环爬取第二页、第三页…

聪明的你,可能会想到第四步第五步…

  1. 封装Bean对象
  2. 使用ListView填充内容
  3. 爬取日期、作者、评论等内容完善项目

1) 爬取主页的详情页url

爬取主页的url可以通过a标签的class=”contentHerf”,我们通过jsoup的属性选择器来实现,这里会用到css知识,jsoup中文文档也有很详细的介绍

Document doc = Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get();
Elements els = doc.select("a.contentHerf");
Log.e("一、HTML內容", els.toString());

for (int i = 0; i < els.size(); i++) {
    Element el = els.get(i);
    Log.e("1.标题", el.text());

    String href = el.attr("href");
    Log.e("2.链接", href);
}

这里对使用到的对象进行介绍

  • Document:相当于一个Html文件
  • Elements:相当于一个标签的集合
  • Element:相当于一个标签

这里要注意Elements与Element的toString()方法和text()方法

  • toString():打印出来的是标签的Html内容
  • text():打印出来的是标签对应的文本内容

css选择器

  • select():获取符合属性选择器要求的标签内容
  • 或getElementById:获取符合ID选择器要求的标签内容
  • 或getElementsByTag:获取符合Tag选择器要求的标签内容

2) 进入详情页爬取内容和图片

这段代码也相当简单,这里就不多解释了

Document doc = Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get();
Elements els = doc.select("a.contentHerf");
Log.e("一、HTML內容", els.toString());

for (int i = 0; i < els.size(); i++) {
    Element el = els.get(i);
    Log.e("1.标题", el.text());

    String href = el.attr("href");
    Log.e("2.链接", href);

    //获取详情页内容
    Document doc_detail = Jsoup.connect("http://www.qiushibaike.com" + href).get();
    Elements els_detail = doc_detail.select(".content");
    Log.e("3.內容", els_detail.text());

    //获取图片
    Elements els_pic = doc_detail.select(".thumb img[src$=jpg]");
    if (!els_pic.isEmpty()) {
        String pic = els_pic.attr("src");
        Log.e("4.图片连接", "" + pic);
    } else {
        Log.e("4.图片连接", "无");
    }
}

3) 循环爬取第二页、第三页…

这里只需要嵌套一个循环进去就可以了,完整代码如下

public class JsoupActivity extends AppCompatActivity {

    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_jsoup);

        new Thread() {
            @Override
            public void run() {
                super.run();
                try {
                    for (int k = 0; k < 5; k++) {
                        Document doc = Jsoup.connect("http://www.qiushibaike.com/8hr/page/" + k + "/").get();
                        Elements els = doc.select("a.contentHerf");
                        Log.e("一、HTML內容", els.toString());

                        for (int i = 0; i < els.size(); i++) {
                            Element el = els.get(i);
                            Log.e("1.标题", el.text());

                            String href = el.attr("href");
                            Log.e("2.链接", href);

                            Document doc_detail = Jsoup.connect("http://www.qiushibaike.com" + href).get();
                            Elements els_detail = doc_detail.select(".content");
                            Log.e("3.內容", els_detail.text());

                            Elements els_pic = doc_detail.select(".thumb img[src$=jpg]");
                            if (!els_pic.isEmpty()) {
                                String pic = els_pic.attr("src");
                                Log.e("4.图片连接", "" + pic);
                            } else {
                                Log.e("4.图片连接", "无");
                            }
                        }
                    }
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }.start();

    }
}

4) 当然,我们爬取到的内容之后,毫无疑问就是要封装成对象,通过ArrayList存储起来,这样你的数据源就解决了

public class Xiaohua {
    private String content;
    private String title;
    private String url;
    private String userName;
    private String date;
}

5) 后面爬取作者、日期、评论等信息就由你们去练习了,然后界面一仿,项目就出来了

三、爬取结果

02-12 08:16:55.010 18074-18110/com.handsome.boke2 E/1.标题: 小时候有个常去楼主家的阿姨总是把楼主叫成楼主哥哥的名字,终于有一天,楼主忍无可忍,大骂了她一顿:“你这个人是不是白痴啊?”她暴怒了,立马告诉了楼主的爸爸,楼主永远也忘不了哥哥被揍时眼睛里的无辜与绝望...
02-12 08:16:55.011 18074-18110/com.handsome.boke2 E/2.链接: /article/118543240
02-12 08:16:55.329 18074-18110/com.handsome.boke2 E/3.內容: 小时候有个常去楼主家的阿姨总是把楼主叫成楼主哥哥的名字,终于有一天,楼主忍无可忍,大骂了她一顿:“你这个人是不是白痴啊?”她暴怒了,立马告诉了楼主的爸爸,楼主永远也忘不了哥哥被揍时眼睛里的无辜与绝望...
02-12 08:16:55.331 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:55.881 18074-18110/com.handsome.boke2 E/1.标题: 一朋友,给暗恋许久的女神,匿名网购了一大堆的礼物,可把女神高兴的,在朋友圈发说说,这是谁买的。告诉我,我要做他女朋友! 朋友乐坏了,于是激动的说,是我,是我! 那女神愣了愣,然后把礼物全部退给了他……
02-12 08:16:55.881 18074-18110/com.handsome.boke2 E/2.链接: /article/118542673
02-12 08:16:56.104 18074-18110/com.handsome.boke2 E/3.內容: 一朋友,给暗恋许久的女神,匿名网购了一大堆的礼物,可把女神高兴的,在朋友圈发说说,这是谁买的。告诉我,我要做他女朋友! 朋友乐坏了,于是激动的说,是我,是我! 那女神愣了愣,然后把礼物全部退给了他……
02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/1.标题: LZ在非洲曾经遇到过抢劫,有人拿枪指着我们,愣了一下热血当头没当回事,继续反抗,后来情急之下,他射了一枪,结果发现那是玩具枪,特么的,我们抓起扫把就把那个劫匪揍了一顿。事后想想,又害怕又想笑。
02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/2.链接: /article/118542683
02-12 08:16:56.608 18074-18110/com.handsome.boke2 E/3.內容: LZ在非洲曾经遇到过抢劫,有人拿枪指着我们,愣了一下热血当头没当回事,继续反抗,后来情急之下,他射了一枪,结果发现那是玩具枪,特么的,我们抓起扫把就把那个劫匪揍了一顿。事后想想,又害怕又想笑。
02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/1.标题: 今年换了工作,今天第一天上班,老妈早早起床准备早餐,等我吃完早餐准备出门的时候,老妈塞给我一个红包说,新年第一天上班图吉利。当时急着上班也没有细看就放在口袋里。等上班空闲的时候,掏出红包,发现红包里只有一张纸条,上面写着四个大字:好好工作……
02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/2.链接: /article/118542647
02-12 08:16:57.140 18074-18110/com.handsome.boke2 E/3.內容: 今年换了工作,今天第一天上班,老妈早早起床准备早餐,等我吃完早餐准备出门的时候,老妈塞给我一个红包说,新年第一天上班图吉利。当时急着上班也没有细看就放在口袋里。等上班空闲的时候,掏出红包,发现红包里只有一张纸条,上面写着四个大字:好好工作……
02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/1.标题: 腰疼,趴在床上,让大侄子来给我踩踩后背,踩得我挺舒服,没忍住,放个响屁,小家伙愣了一下,然后狠狠 踹 我 屁 股“让你蹦我!让你蹦我!”。。。。
02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/2.链接: /article/118542708
02-12 08:16:57.379 18074-18110/com.handsome.boke2 E/3.內容: 腰疼,趴在床上,让大侄子来给我踩踩后背,踩得我挺舒服,没忍住,放个响屁,小家伙愣了一下,然后狠狠 踹 我 屁 股“让你蹦我!让你蹦我!”。。。。
02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/1.标题: 闺蜜的妈妈非常迷信,自从闺蜜放假回家陪妈妈去了几次麻将馆后,她妈每次都能赢钱,所以她妈这一个寒假只要去打麻将,都要拉着她去,直到昨天闺蜜开学,她妈妈送她走得时候,眼泪汪汪的对闺蜜说:宝贝,这是我第一次不舍的你走~
02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/2.链接: /article/118542657
02-12 08:16:57.881 18074-18110/com.handsome.boke2 E/3.內容: 闺蜜的妈妈非常迷信,自从闺蜜放假回家陪妈妈去了几次麻将馆后,她妈每次都能赢钱,所以她妈这一个寒假只要去打麻将,都要拉着她去,直到昨天闺蜜开学,她妈妈送她走得时候,眼泪汪汪的对闺蜜说:宝贝,这是我第一次不舍的你走~
02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/1.标题: 早上起床后发现阳台的地上到处是泡沫水,花盆里也有很多泡沫,而且地上躺着洗衣液的空瓶子,一下便明白了,转头去问熊孩子,熊孩子若无其事的说我只是给花洗洗头而已嘛!
02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/2.链接: /article/118542709
02-12 08:16:58.391 18074-18110/com.handsome.boke2 E/3.內容: 早上起床后发现阳台的地上到处是泡沫水,花盆里也有很多泡沫,而且地上躺着洗衣液的空瓶子,一下便明白了,转头去问熊孩子,熊孩子若无其事的说我只是给花洗洗头而已嘛!
02-12 08:16:58.393 18074-18110/com.handsome.boke2 E/4.图片连接: 无

结语

网络爬虫虽然带来了很多数据源的问题,但很多网站都已经通过一些技术实现反爬虫的效果了,所以大家还是以学习jsoup为主,不管是Android端还是Web端jsoup的用处很广泛,所以掌握起来是必须的,听说豆瓣和知乎都可以爬出来哦,想做项目的同学可以去试试哦

代码下载

时间: 2024-11-03 05:33:35

Android实战——jsoup实现网络爬虫,糗事百科项目的起步的相关文章

Python爬虫实战一之爬取糗事百科段子

参考资料:http://cuiqingcai.com/990.html 1.非面向对象模式 完整代码1: # -*- coding: utf-8 -*-import reimport urllib2import urllibimport threadimport time page = 1url = 'http://www.qiushibaike.com/hot/page/' + str(page)user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5;

爬虫糗事百科图片代码

#在平常写代码的文件夹下新建一个image_spider的文件夹作为工程文件,并在此文件夹目录下新建一个image文件夹作为保存图片的文件 #抓取百科的图片#访问url必须有http开头import requestsimport re def crawl_image(image_url, image_local_path): image_url = "http:"+image_url r = requests.get(image_url,stream=True) with open(i

Python爬虫实战-爬取糗事百科段子

1.本文的目的是练习Web爬虫 目标: 1.爬去糗事百科热门段子 2.去除带图片的段子 3.获取段子的发布时间,发布人,段子内容,点赞数. 2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功 构造代码: 1 # -*- coding:utf-8 -*- 2 import urllib 3 import urllib2 4 import re 5 6 page = 10 7 url = 'http://www

芝麻HTTP:Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评

Python爬虫实战(一):爬糗事百科段子

代码: # _*_ coding:utf-8 _*_ import urllib2 import re from datetime import datetime class QSBK: def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' self.headers = {'User-Agent':self.user_agent} self

Python 网络爬虫 - 抓取糗事百科的段子(最新版)

代码 # -*- coding: cp936 -*- __author__ = "christian chen" import urllib2 import re import threading import time class Tool: def pTitle(self): return re.compile('<title.*?>(.*?)</', re.S) def pContent(self): return re.compile('<div cla

爬虫实战 爬取糗事百科

偶然看到了一些项目,有爬取糗事百科的,我去看了下,也没什么难的 首先,先去糗事百科的https://www.qiushibaike.com/text/看一下, 先检查一下网页代码, 就会发现,需要爬取的笑话内容在一个span标签里,而且父标签是class为content的div里,那就很简单了,用select方法,先找到该文件,然获取下来并保存在txt文件里.比较枯燥. 直接贴代码吧 from bs4 import BeautifulSoup import lxml import request

2019基于python的网络爬虫系列,爬取糗事百科

**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!** 废话不多说,直接上代码. 为了方便提取数据,我用的是beautifulsoup库和requests ![使用requests和bs4](https://img-blog.csdnimg.cn/20191017093920758.png) ``## 具体代码如下 ```import requestsfrom bs4 import BeautifulSoup de

爬虫二:爬取糗事百科段子

这一次我们利用BeautifulSoup进行网页的解析,方法其实跟前一次的差不多,只是这里我们爬取的是糗事百科,糗事百科有反爬机制,我们需要模拟用户来访问糗事百科网站,也就是加上头部信息headers,其实整体思路与上一篇所写爬虫的思路差不多,拿个速度可以共用. 1.首先我们在打开网页,并在网页空白处右击选择"检查"在弹出的网页里选择"Network" 2.然后按下"F5"刷新一下 3.在刷新后的页面里我们可以看到多条信息,任意选择一条信息点开