豆瓣电影简易爬取

#coding=utf-8
import urllib2
from HTMLParser import HTMLParser
class HttpParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.move=[]

    def handle_starttag(self,tag,attrs):
        def _attr(attrlist,attrname):
            for attr in attrlist:
                if attr[0]==attrname:
                    return attr[1]
            return None

        if tag==‘li‘ and _attr(attrs,‘data-title‘):
            move={}
            move[‘title‘]=_attr(attrs,‘data-title‘)
            move[‘rate‘] = _attr(attrs, ‘data-rate‘)
            self.move.append(move)

def get(url):

    re=urllib2.urlopen(url)
    parser=HttpParser()
    parser.feed(re.read())
    re.close()
    return parser.move

if __name__ == ‘__main__‘:
    url=‘https://movie.douban.com/‘
    moves=get(url)
    import json
    print json.dumps(moves,ensure_ascii=False,indent=2)

原文地址：https://www.cnblogs.com/qinyios/p/10036092.html

时间： 2025-01-11 05:05:13

豆瓣电影简易爬取的相关文章

requests 之豆瓣电影排行榜爬取

import json import requests if __name__ == '__main__': url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:90', 'action':'', 'start':'0', # 从库中的第几部电影中去取 'limit': '20' # 一次取得个数 } headers = { 'User-Agent': 'Moz

使用scrapy简易爬取豆瓣9分榜单图书并存放在mysql数据库中

注:大部分内容参考http://www.cnblogs.com/voidsky/p/5490798.html 首先创建一个项目douban9fen [email protected]:~/pachong$ scrapy startproject douban9fen New Scrapy project 'douban9fen', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/p

Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计

一.数据分析截图(weka数据分析截图 ) 本例实验,使用Weka 3.7对豆瓣电影网页上所罗列的上映电影信息,如:标题.主要信息(年份.国家.类型)和评分等的信息进行数据分析,Weka 3.7数据分析如下所示: 图1-1 数据分析主界面图1-2 OneR数据分析界面图1-3 ZeroR数据分析界面图1-4 Visualize数据分析界面二.数据分析结论:(将数据之间的关系用文字性描述) 如图2-1所示,显而易见,电影类型的趋势增量随着标题的繁杂而日益增长,仅对于整个国家层次来说,

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析.正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来.现在做一个概要的介绍和演示. 动机采集豆瓣电影数据包括电影详情页数据和电影的短评数据. 电影详情页如下图所示需要保存这些详情字段如导演.编剧.演员等还有图中右下方的标签. 短评页面如下图所示需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称.评论内容等. 数据库设计有了如上的需求,需要设计表,其实很简单,

使用scrapy简易爬取豆瓣9分榜单图书

注:部分内容参考http://www.cnblogs.com/voidsky/p/5490798.html 首先创建一个项目douban9fen [email protected]:~/pachong$ scrapy startproject douban9fen New Scrapy project 'douban9fen', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/pr

使用srapy框架实现豆瓣电影的抓取

1.新建一个项目 scrapy startproject doubanspider 2.编写电影信息item类 3.编写spider类 # -*- coding: utf-8 -*- from scrapy import Request from scrapy.spiders import Spider from doubanspider.items import DoubanMovieItem class DoubanMovieTop250Spider(Spider): name = 'dou

爬虫新手学习2-爬虫进阶(urllib和urllib2 的区别、url转码、爬虫GET提交实例、批量爬取贴吧数据、fidder软件安装、有道翻译POST实例、豆瓣ajax数据获取)

爬虫新手学习1-爬虫基础 1.urllib和urllib2区别实例 urllib和urllib2都是接受URL请求相关模块,但是提供了不同的功能,两个最显著的不同如下: urllib可以接受URL,不能创建设置headers的Request类实例,urlib2可以. url转码 https://www.baidu.com/s?wd=%E5%AD%A6%E7%A5%9E python字符集解码加码过程: 2.爬虫GET提交实例 #coding:utf-8 import urllib #负责url编

Python登录豆瓣并爬取影评

上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置.主题等) 浏览器行为跟踪(如跟踪分析用户行为等) 我们今天就用requests库来登录豆瓣然后爬取影评为例子,用代码讲解下Cookie的会话状态管理(登录)功能. 此教程仅用于学习,不得商业获利!如有侵害任何公司利益,请告知删除! 一.需求背景之前猪哥带大家爬取了优酷的弹幕并生成词云图片

Python3 爬虫实例（三） -- 爬取豆瓣首页图片

序前面已经完成了简单网页以及伪装浏览器的学习.下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下. 首先,豆瓣首页部分图片展示这只是截取的一部分.下面给出,整个爬虫程序. 爬虫程序这个爬取图片的程序采用伪装浏览器的方式,只不过是加了处理图片的模块. ''' 批量下载豆瓣首页的图片采用伪装浏览器的方式爬取豆瓣网站首页的图片,保存到指定路径文件夹下 ''' #导入所需的库 import urllib.request,socket,re,sys,os #定义文件保存路径 targ