java-HttpClient-之豆瓣电影排行榜

public class TestHttpClient {

public static void main(String[] args) throws ClientProtocolException, IOException {

//创建httpClient实例

CloseableHttpClient httpClient=HttpClients.createDefault();

//创建httpGet

HttpGet httpGet=new HttpGet("https://movie.douban.com/cinema/nowplaying/nanjing/");

System.out.println(httpGet.getURI());

//执行get请求并接收响应信息

CloseableHttpResponse response= httpClient.execute(httpGet);

//获取响应实体

HttpEntity entity= response.getEntity();

//打印响应状态

System.out.println(response.getStatusLine());

System.out.println("---------------------------------");

if (entity!=null) {

String web=EntityUtils.toString(entity,"utf-8");

// System.out.println("响应内容长度"+entity.getContentLength());

// System.out.println("响应内容"+web);

Document doc= Jsoup.parse(web);

//获取排行榜标题

Elements title =doc.getElementsByClass("movie_ranking_time");

for (Element element : title) {

System.out.println(element.text());

}

//获取排行榜类型

Elements name =doc.select("ul.tab_nav>li");

//获取排行榜

Elements content =doc.select("ul.view_1");

for (int i = 0; i < name.size(); i++) {

System.out.println(name.get(i).text());

Elements movie=content.get(i).select("li");

for (int j = 0; j < movie.size(); j++) {

System.out.println(movie.get(j).text());

}

}

}

System.out.println("---------------------------------");

response.close();

httpClient.close();

}

}

时间: 2024-11-04 14:51:54

java-HttpClient-之豆瓣电影排行榜的相关文章

基本文件处理-爬取豆瓣电影排行榜

目录 文件的类型 什么是文件? 文件的分类 文件的打开与关闭 文件处理的三个步骤 使用方式 爬虫 requests库的使用 文件的类型 什么是文件? 一堆.py/.txt 存储着文字信息文件, 文件的分类 二进制文件:由0.1组成,例如.png文件 文本文件:由单一特定编码组成的文件,如utf8,例如 .txt文件 文件的打开与关闭 文件处理的三个步骤 打开(找到路径打开) 打开模式 描述 r 只读不可写 w 只写不可读(会清空文件) a 追加不可读 r+ 可读可写 w+ 可读可写(会清空文件)

用Scrapy爬虫爬取豆瓣电影排行榜数据,存储到Mongodb数据库

爬虫第一步:新建项目 选择合适的位置,执行命令:scrapy startproje xxxx(我的项目名:douban) 爬虫第二步:明确目标 豆瓣电影排行url:https://movie.douban.com/top250?start=0, 分析url后发现srart=后面的数字,以25的步长递增,最大为225,所以可以利用这个条件来发Request请求 本文只取了三个字段,电影名.评分和介绍,当然你想去更多信息也是可以的 item["name"]:电影名 item["r

requests 之豆瓣电影排行榜爬取

import json import requests if __name__ == '__main__': url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:90', 'action':'', 'start':'0', # 从库中的第几部电影中去取 'limit': '20' # 一次取得个数 } headers = { 'User-Agent': 'Moz

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

在上篇实现了电影详情和短评数据的抓取.到目前为止,已经抓了2000多部电影电视以及20000多的短评数据. 数据本身没有规律和价值,需要通过分析提炼成知识才有意义.抱着试试玩的想法,准备做一个有关情感分析方面的统计,看看这些评论里面的小伙伴都抱着什么态度来看待自己看过的电影,怀着何种心情写下的短评. 鉴于爬取的是短评数据,少则10来个字,多则百来个字,网上查找了下,发现Google开源的Word2Vec比较合适,于是今天捣鼓了一天,把自己遇到的问题和运行的结果在这里做个总结. Word2Ve是g

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析.正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来.现在做一个概要的介绍和演示. 动机 采集豆瓣电影数据包括电影详情页数据和电影的短评数据. 电影详情页如下图所示 需要保存这些详情字段如导演.编剧.演员等还有图中右下方的标签. 短评页面如下图所示 需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称.评论内容等. 数据库设计 有了如上的需求,需要设计表,其实很简单,

抓取豆瓣的电影排行榜TOP100

1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 """ 4 一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称 5 Anthor: Andrew Liu 6 Version: 0.0.1 7 Date: 2014-12-04 8 Language: Python2.7.8 9 Editor: Sublime Text2 10 Operate: 具体操作请看README.md介绍 11 "&q

《团队-爬取豆瓣电影TOP250-成员简介及分工》

团队项目<爬取豆瓣电影TOP250>开发人员之一:张晓亮,性别男,15级软件技术专业学生,喜欢爱书和浏览网页信息.掌握的知识:Java语言开发,熟悉Python,C等开发语言.了解HTML5,CSS3,Javasprict等前端开发知识.可以熟练使用eclipse,Sequel Pro等软件开发工具. 在本次开发中担任:系统分析.对系统功能需求分析.用户体验设计进行归拢.对系统进度的控制,风险评估进有把控和人员的配置等

Scala学习之爬豆瓣电影

简单使用Scala和Jsoup对豆瓣电影进行爬虫,技术比较简单易学. 写文章不易,欢迎大家采我的文章,以及给出有用的评论,当然大家也可以关注一下我的github:多谢: 1.爬虫前期准备 找好需要抓取的链接:https://movie.douban.com/tag/%E7%BB%8F%E5%85%B8?start=20&type=T 观看该链接的源码,找到需要进行解析的地方如本实例:图中标明了需要提取的字段. 下载Jsoup的jar包文件:https://jsoup.org/download 建

开源android豆瓣电影阅读器

学习andorid开发有一段时间了,做了个小应用--豆瓣电影阅读器,作为这一阶段学习的一个总结.当前实现了基本的阅读器功能,更多丰富的特性,后续会进一步添加. 代码托管在github上,https://github.com/zhaoyu87/DouBan,需要的同学可以下载 应用主要分为两块: 1. 数据内容,http访问豆瓣api获取JSON格式的电影信息 2. 显示界面,使用了一个ListView来显示电影列表,和一个WebView来显示电影详情,如下所示: 1. 数据内容,http访问豆瓣