Python爬虫之抓取豆瓣影评数据

  脚本功能:

  1、访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题、作者、影片以及影评信息  

  2、将抓取的信息写入excel中

  页面信息如下:

  

  一共5页,需要循环访问不同的页面

  HTML源代码:

<a class="" title="《权力的游戏》S5E8:凛冬已至,凡人皆死" href="http://movie.douban.com/review/7488053/" onclick="moreurl(this, {from: ‘‘})">
    《权力的游戏》S5E8:凛冬已至,凡人皆死
</a>

<span class="starb">
    <a href="http://movie.douban.com/people/58588304/">地瓜</a>
</span>

<a href="http://movie.douban.com/subject/25826612/"> 《权力的游戏 第五季》</a>

<span class="">本篇多剧透、多推测、少评论

看过这一集的人,一定会被画风的急转直下惊得目瞪口呆。习惯了HBO《权力的游戏》节奏的观众都知道,这剧一般会在临近结局的时候放上原著中的大事件——通常是战役或者死亡——搞个大新闻出来,例如S1E9的奈德之死、S2E9的黑水河之战、S3E9的红色婚礼、S4E9的黑城堡之战、S4E10的泰温之死,等等。目前剧中仅有的两次大战,都发生在第九集。
...
</span>......

get_movieReview.py:

# -*- coding: utf-8 -*-
‘‘‘
Created on 2015-6-3

@author: yuanyuan
‘‘‘
import urllib
import re
import HTMLParser
import excel

url = ‘http://movie.douban.com/review/best/?start=‘
excel_name = ‘./excel/douban_hot_review.xls‘
sheet_name = ‘豆瓣影评‘
column = [‘标题‘,‘作者‘,‘影片‘,‘影评‘]

douban_excel = excel.Excel(excel_name, sheet_name)

# 将HTML中的转义字符转换成普通字符
def html_parser(s):
    html_parser = HTMLParser.HTMLParser()
    return str(html_parser.unescape(s))

# 获取URL的源代码
def get_html(url, startPage, endPage):
    html = ‘‘
    for i in range(startPage-1, endPage):
        url2 = url + str(i*10)
        try:
            page = urllib.urlopen(url2)
            html = html + page.read()
        except:
            print url2 + ‘,网络链接异常‘

    return html

def get_movie_review():
    html = get_html(url, 1, 5)

    pattern_title = re.compile(r‘<a class="" title="(.+)" href‘)
    pattern_people = re.compile(r‘<a.+people.+">(.+)</a>‘)
    pattern_subject = re.compile(r‘<a.+subject.+" title="(.+)">‘)
    pattern_description = re.compile(‘<span class="">([^(][\s\S]+?)</span>‘)

    list_title = re.findall(pattern_title, html)
    list_people = re.findall(pattern_people, html)
    list_subject = re.findall(pattern_subject, html)
    list_description = re.findall(pattern_description, html)

    print ‘----------写excel开始----------‘
    for row in range(0, len(list_title)):
        if row == 0:
            print ‘----------获取第‘ + str(row+1) + ‘个影评开始----------‘
            douban_excel.write(row, 0, column[0])
            douban_excel.write(row, 1, column[1])
            douban_excel.write(row, 2, column[2])
            douban_excel.write(row, 3, column[3])
            douban_excel.write(row+1, 0, html_parser(list_title[row]))
            douban_excel.write(row+1, 1, html_parser(list_people[row]))
            douban_excel.write(row+1, 2, html_parser(list_subject[row]))
            douban_excel.write(row+1, 3, html_parser(list_description[row]))
            print ‘标题:‘,html_parser(list_title[row])
            print ‘作者:‘,html_parser(list_people[row])
            print ‘影片:‘,html_parser(list_subject[row])
            print ‘影评:‘,html_parser(list_description[row])
            print ‘----------获取第‘ + str(row+1) + ‘个影评结束----------‘
        else:
            print ‘----------获取第‘ + str(row+1) + ‘个影评开始----------‘
            douban_excel.write(row+1, 0, html_parser(list_title[row]))
            douban_excel.write(row+1, 1, html_parser(list_people[row]))
            douban_excel.write(row+1, 2, html_parser(list_subject[row]))
            douban_excel.write(row+1, 3, html_parser(list_description[row]))
            print ‘标题:‘,html_parser(list_title[row])
            print ‘作者:‘,html_parser(list_people[row])
            print ‘影片:‘,html_parser(list_subject[row])
            print ‘影评:‘,html_parser(list_description[row])
            print ‘----------获取第‘ + str(row+1) + ‘个影评结束----------‘
    print ‘----------写excel结束,路径:‘ + excel_name + ‘----------‘

    douban_excel.save()

get_movie_review()

excel.py:

# -*- coding: utf-8 -*-
‘‘‘
Created on 2015-6-4

@author: yuanyuan
‘‘‘
import xlrd
import xlwt
import os

class Excel:
    def __init__(self, excel_name, sheet_name):
        global bookWrite
        global bookRead
        global sheet

        self.excel_name = excel_name
        self.sheet_name = sheet_name

        bookWrite = xlwt.Workbook(encoding=‘utf-8‘)
        sheet = bookWrite.add_sheet(sheet_name, cell_overwrite_ok = True)

    # 写数据到excel
    def write(self, row, col, data):
        sheet.write(row, col, data)

    # 保存数据到文件
    def save(self):
        if os.path.exists(self.excel_name):
            os.remove(self.excel_name)
            bookWrite.save(self.excel_name)
        else:
            bookWrite.save(self.excel_name)

    # 读取excel数据:单元格
    def read(self, sheet_index, row, col):
        bookRead = xlrd.open_workbook(self.excel_name)
        sheet = bookRead.sheet_by_index(sheet_index)    # 根据索引获取工作表
        return sheet.cell(row, col).value   # 根据行与列获取单元格值

    # 读取excel数据:单行数据
    def read_by_row(self, sheet_index, row):
        bookRead = xlrd.open_workbook(self.excel_name)
        sheet = bookRead.sheet_by_index(sheet_index)    # 根据索引获取工作表
        return sheet.row_values(row)   # 根据行获取一行单元格

    # 读取excel数据:单列数据
    def read_by_col(self, sheet_index, col):
        bookRead = xlrd.open_workbook(self.excel_name)
        sheet = bookRead.sheet_by_index(sheet_index)    # 根据索引获取工作表
        return sheet.col_values(col)   # 根据列获取一列单元格

运行结果:

----------写excel开始----------
----------获取第1个影评开始----------
标题: 《权力的游戏》S5E8:凛冬已至,凡人皆死
作者: 地瓜
影片: 权力的游戏 第五季
影评: 本篇多剧透、多推测、少评论

看过这一集的人,一定会被画风的急转直下惊得目瞪口呆。习惯了HBO《权力的游戏》节奏的观众都知道,这剧一般会在临近结局的时候放上原著中的大事件——通常是战役或者死亡——搞个大新闻出来,例如S1E9的奈德之死、S2E9的黑水河之战、S3E9的红色婚礼、S4E9的黑城堡之战、S4E10的泰温之死,等等。目前剧中仅有的两次大战,都发生在第九集。
...
----------获取第1个影评结束----------
----------获取第2个影评开始----------
标题: 真粉丝不用数梗
作者: 方聿南
影片: 功之怒
影评: 如果你觉得《飓风营救》,《疾速追杀》,《复仇者联盟》这样的电影,属于没有情节不顾逻辑的杀杀杀,那你一定没有看过80年代动作片。跟它们比起来,上面这些简直是对白有深度、表演有维度、人物有立体度、艺术价值有高度到能拿奥斯卡的文艺片。

不过难怪,互联网时代,十几岁的年轻人都对着大胸翘臀的超级英雄舔屏还来不及,谁会有兴趣下载那些80年代的老古董——阿诺是...
----------获取第2个影评结束----------
----------获取第3个影评开始----------
标题: 【非影评】大陆上映前的的一个小小科普
作者: CaesarZX
影片: 末日崩塌
影评: 这是我在知乎的一篇回答,趁本片在大陆上映前发到这里来科普一下:http://www.zhihu.com/question/30275207/answer/49700761

不论本片好坏,趁本片在大陆上映前说些与电影本身无关的:

电影的片名San Andreas看似普通,其实很多在加州住久了的人看到这个片名都会背脊发凉,甚至莫名地感到恐惧,其中就有我。

本片片名取自San Andreas Fault,也就是著名的“圣安德...
----------获取第3个影评结束----------
----------获取第4个影评开始----------
标题: 《哆啦A梦:伴我同行》:日式猥琐男的心理满足
作者: 图宾根木匠
影片: 哆啦A梦:伴我同行
影评: 童年记忆这种事,一般是美好的,但有些东西,长大了就该想得更明白点,这也不奇怪——认为小孩子天然的具有“善良”“纯真”的品质是一种错误的想法,因为道德这种东西,乃是后天社会教化的产物,小孩子没有受到社会洗礼,其实是不具备道德观念的——譬如臭名昭著的连环杀手爱德华·盖恩,在跟社会正常接触之后,才变回了一位慈祥和蔼的老者。

《哆啦A梦:伴我同行》里的...
----------获取第4个影评结束----------
----------获取第5个影评开始----------
标题: #Andamovie
作者: 白龙桥窦唯
影片: 废柴联盟 第六季
影评: 如果说仅仅因为Finale的每句话每个场景都有梗来安慰我们死忠饭,那这也就是一个普通的大结局了。

直到Dan Harmon自己念了Fake Commercial之后的这段Disclaimer。

Dice not included,
Some assembly required.
Lines between perception, desire, and reality may become blurred, redundant, or interchangeable.
Characters may hook up with no regard for yo...
----------获取第5个影评结束----------
----------获取第6个影评开始----------
标题: 不去争辩——第三次坐万万没想到影评的沙发
作者: 小黑陆子野
影片: 万万没想到
影评: 刚刚看到叫兽的广播,万万没想到的电影要上映了。

喜欢叫兽很久了,中学就开始了。记得大四时,叫兽正在闭关转型,沉寂很久。我每隔几天会去叫兽的土豆主页看看传说中的最新集发了没,但是真的很久很久没发片子。每次看到更新的,只是右侧留言板里不断从道德高度开喷的粉丝:“你算什么东西?有什么资格欺骗我们的感情?”。那一刻真是有种感觉,名声、粉丝这些,都是多...
----------获取第6个影评结束----------
----------获取第7个影评开始----------
标题: 如何理解Joe这个人
作者: OLIVE
影片: 奔腾年代 第二季
影评: 只是随想随写了,我不是在下定论,只是从第一季到第一集的一个感觉。
后面随着一集一集出来不断修改和添加吧。
我现在做的工作,等于是在揣摩编剧对他性格进行设定时建的那个模型。

到目前为止,我觉得要理解Joe这个人物,其实至关重要的是理解他的童年和父母。
毫无疑问,Joe是个非常非常聪明,而且对好东西极有辨识度的人,他有前瞻性,有实行力,是个builder——没...
----------获取第7个影评结束----------
----------获取第8个影评开始----------
标题: 让合唱回归她最本质的属性——简评<PITCH 2>
作者: Siegfried
影片: 完美音调2
影评: 作为一个唱合唱/阿卡贝拉快10年的人,用周末两天的时间分别看了PITCH 1 和 2,觉得总体来说,还是蛮励志和积极向上的青春电影。

从合唱的角度来说几点:

1、两部PITCH系列电影关于合唱团生活的部分都挺真实的,合唱/阿卡贝拉这种演唱方式在中国国内发展的很迅速,过去一个学校一般都只有一个合唱团,现在一个学校可能会有五六个阿卡贝拉组合,合唱团内部少不了勾心斗...
----------获取第8个影评结束----------
----------获取第9个影评开始----------
标题: 结婚了就一定幸福吗?(严重剧透)
作者: 巧
影片: 咱们结婚吧
影评: 看这部电影的时候各种快进,看完之后深感整部电影只有片尾是高潮,哦,我是说片尾曲。好歹张靓颖唱歌还是好听的。
《我们结婚吧》由几个爱情故事串联而成,最后是大家都结婚的大团圆结局,卡司都是还算红的明星,高圆圆姜武/陈意涵郑恺/郭碧婷李晨/刘涛王自健,还有城乡结合部化肥厂老板家少爷气质的明道客串(其实明道主持节目还是可以的,演偶像剧就不可思议了)。
...
----------获取第9个影评结束----------
----------获取第10个影评开始----------
标题: 徐克是李白
作者: 山下猫
影片: 狄仁杰之通天帝国
影评: 几年前电视台放,前面当徐克的本格推理看,看到鬼市,断然放弃洗洗睡了。感觉和看《武侠》一样——前半段融合很好,可是不够延续整场,大概是学了新点子,但还没融到血液里。

这次重启,心里有底,即便是上官静儿这种常见的高冷蠢女角儿出来絮絮叨叨也就看下去了。青蓝砖红的色调是敦煌壁画的风格。容我卖弄一下。敦煌洞窟里越靠屋顶的壁画因为较少风华和人的触摸,色彩...
----------获取第10个影评结束----------
----------获取第11个影评开始----------
标题: Kung Fury, 80年代梗在社群时代的逆转胜
作者: 老衲很欣慰
影片: 功之怒
影评: [开头注:应该可以打到“力荐/五星” 评级,我只是需要看些其他的确定一下]

Kung Fury是一部重口味电影。导演甚至毫不掩饰地在开场半分钟内就让三个帮派成员爆掉了一台警车。但是比起这个在美国电影中常用的番茄酱设定而言,它的80年代混搭致敬风才是令人瞩目的焦点。

实际上,与其说它是一部充满80年代电影风格的短片,不如说它是布满了那个时代某些作品经典梗的片...
----------获取第11个影评结束----------
----------获取第12个影评开始----------
标题: 强颜欢笑,此即真善美
作者: 灵子
影片: 涉足荒野
影评: 年后第一次见到Y,才知道他整个春节都在老家的医院度过。他的母亲突然查出重症,医生甚至暗示他们不必做更多努力了。我不知道他是怎么面对这一切的,只知道他请了长长的假,最近刚回来,大概很快又要再走。

Y与我同龄,与我一样来北京读大学,毕业后留下工作,也与我一样“晚熟”,久久飘在这个城市,扎不下根。讲到春节期间经历的种种,他语气平静,大约独自面对苦痛久...
----------获取第12个影评结束----------
----------获取第13个影评开始----------
标题: 快乐的有钱人没有格调
作者: 荞麦
影片: 纽约灾星
影评: 悲剧往往是从一个不快乐的富家子娶了一个开朗快乐的平民女孩开始的。

要我说:足够有钱就不要追求快乐了。快乐的有钱人没有格调。

果然,很快Durst就厌倦了。厌倦她那个读什么杂志的母亲,老要跟他探讨各种话题。厌倦了热热闹闹的平民家庭和平民感情。(那个平民家族30年后还给失踪的女孩开了纪念会,温馨吧?也够闲的。)而且他肯定从这个快乐的小东西身上惊讶的发现...
----------获取第13个影评结束----------
----------获取第14个影评开始----------
标题: 《卡罗尔》原著——The Price of Salt《盐的代价》书摘及电影原声
作者: Salt
影片: 卡罗尔
影评: 等不到电影,只好先拿小说来解渴。

原著是以作者Patricia Highsmith自己的故事为原型的,她在快30岁时,在纽约Bloomingdale‘s百货公司的玩具区遇见了一位已婚妇女,并爱上了她。

原著虽是第三人称,但基本是以Therese的视角写的,内心描写很丰富,用词很美,不算艰涩,读起来很流畅,很抓人,不忍释卷。
读的过程中不断带入Cate和Rooney,因此十分有画面感,完全被带...
----------获取第14个影评结束----------
----------获取第15个影评开始----------
标题: 《伴我同行》,一盘难食得毫无操守的冷饭
作者: Armchannel_Ho
影片: 哆啦A梦:伴我同行
影评: 这年头,情怀兜售总是票房护身符,卖力程度更是与电影的吸金能力呈强劲正相关。更何况眼前放着的是一个八十年的金漆招牌,不去用的一定是白痴。任何有着正常智商水平的人都明白,但凡打响了的名头,必定要一炒再炒炒个十辈八代子子孙孙无穷尽,这是荷里活乃至世界通行的惯用伎俩。漫威大法中的各种侠,就很好地证明了在通常情况下,我们都会乐于买单。

我自己是全身心地...
----------获取第15个影评结束----------
----------获取第16个影评开始----------
标题: 在黄昏的浮冰上看世界下沉
作者: rivert
影片: 彼得堡异人写真
影评: 【爱情和酗酒,哪个更危险?】

连体婴儿科里亚和托里亚命运悲惨而又幸运。他们生来畸形,但被好心的医生收养,住在巨大而空旷的房子里。医生盲眼的妻子抚育他们,弹钢琴为他们伴奏,教他们唱歌,虽然严厉但是效果显著。兄弟俩长成少年,嗓子清亮,乐感一流,歌声动听。调皮的女仆达里娅有无穷的欲望无从发泄,会从胸衣里掏出硕大肥嫩的乳房邀请兄弟俩抚摸。科里亚羞涩,...
----------获取第16个影评结束----------
----------获取第17个影评开始----------
标题: 先让我吃个7-11新上市的柚子芝士布丁压压惊。
作者: 姜饼人遛猫
影片: 新宿天鹅
影评: 可乐加爆米花前排评论!来自作为完全业余的观影爱好者,以及这部电影的主要明星阵容的影迷的评论~

今晚从学校图书馆出来,在TOHO看的夜场。东宝的酱油黄油味爆米花真的太好吃了!←吃货快够。

能让我熬夜写评论的,真的只有新宿天鹅了。泪一个。

我是刚哥,erika,友介叔,金子和优姐的影迷,特别是刚哥和erika是近年来持久的最爱,在整形天后那里两人缠绵根本看不...
----------获取第17个影评结束----------
----------获取第18个影评开始----------
标题: 哆啦A梦不该是只一心为主的狗
作者: 格里高尔
影片: 哆啦A梦:伴我同行
影评: 藤子f不二雄最擅长的异想和梦现,被恶俗爱情主线覆盖,仿佛精虫上脑的猥琐大雄,开篇就是直飞云霄的春梦,只有在用时光布长大一段因格外无能而略显天真。这是和原作意趣相差极远的一部电影,桥段搁三流爱情电视剧里也属别人玩儿剩的。更不用说成年静香的配音,北京胡同口音,更让我有种在看国产三流爱情电视剧的错觉。

哆啦A梦中大雄和静香确实是有暧昧关系的,但主要体...
----------获取第18个影评结束----------
----------获取第19个影评开始----------
标题: 妈的!我要回到80年代!!!!!
作者: 草办水元溪
影片: 功之怒
影评:   看完这个短片我傻眼了,年度狂热神经病小短片。这个导演为什么脑洞这么大,片子满满的充斥着贴着80年代标签的玩意儿们:街机游戏、功夫、恐龙、牛逼的电子音乐摇滚乐、机器人、维京海盗、驯龙女战士、变种犀牛人。导演牛逼啊,用着别人的钱拍片子,还自导自演大玩一把,还可以玩自己喜欢的东西玩的太尽兴啦!第一眼看到海报就想起了星球大战,导演你确定你拍的不是星战吗...
----------获取第19个影评结束----------
----------获取第20个影评开始----------
标题: 把编剧炒了吧,用我的剧本!(结尾处高能预警)
作者: Liminality
影片: 十二公民
影评: 既然片子充满了难以洗脱的舞台剧感
既然陪审团这种东西在中国的现实里根本不存在
(拜托,学生家长陪考这种东西在中国也!不!存!在!好!嘛!无力吐槽……)
既然本来就付了版权费改编《十二怒汉》
不如干脆拍成戏中戏啊!

就这么整:
某话剧团正排练即将上演的《十二怒汉》
与此同时,剧组演员之间因为评职称也在大搞宫斗
具体说就是扮演有罪一派的核心人物的...
----------获取第20个影评结束----------
----------获取第21个影评开始----------
标题: 狐未死,狗已烹
作者: 拖拉机骑士
影片: 狐狸猎手
影评: 不管事实原貌如何,既然这部作品选择不完全按原本事件展现,就已经决定故事是导演和编剧的表达。而所谓的真相,应该说是电影中事件的真相,是什么。

Foxcatcher,标题,故事的主要发生地点名称,甚至很可能是指近现代一度在有钱人中盛行的猎狐运动里大批的猎犬。狗,宠物,可以买来,可以吊死。一度似乎是暗指在John眼中的Mark,然而看看John和他母亲的关系,我们才知道...
----------获取第21个影评结束----------
----------获取第22个影评开始----------
标题: 2D故事转3D不是简单的视觉问题
作者: 周眠
影片: 哆啦A梦:伴我同行
影评: 这个电影的主要问题是,和之前的叙事形态完全两样了,要找到新的逻辑,可惜找得不好。

2D故事转3D不是简单的视觉问题。
2D故事(本来的故事)是很成功的。
每集十几分钟,是一段发明小品。
用简单俏皮的音乐隔断,形成更小的段落:

康夫受辱 - 机器猫掏发明物 - 康夫扬眉吐气 - 继续推演发明,发挥效用-不可收拾的bug - 短平快结束。

人物是扁平的,符号化的,...
----------获取第22个影评结束----------
----------获取第23个影评开始----------
标题: 梨花的恋爱与冒险
作者: zearq
影片: 纸之月
影评: 看到一半的时候我就在唏嘘这么个涉世未深的家庭主妇,为了一个小白脸最后要坐穿牢底。。。20分钟之后傻逼的我就被扇脸,原来她的三观早就追寻远古大神尼采去了。。。她是从来没想过自己被抓,因为她根本不在乎,她也从来没想过自己被骗,因为她要的就是爽。。
最后她被抓,在给呆逼老女人洗完脑后,用凳子把壁窗砸碎,我以为她想自杀。。镜头一转,她已经跑了。。我引以为...
----------获取第23个影评结束----------
----------获取第24个影评开始----------
标题: 命好?命坏?
作者: 维诺
影片: 撒娇女人最好命
影评:
女人成了女汉子,男人才是绿茶婊,而导演,是直男癌。贴标签就是这么简单。但是现实哪有那么简单。

无论女人是否会撒娇,是否会赚钱,是否懂艺术,似乎其唯一目的就是为了找个男人。这个男人可以只是为了练手晋级,以便将来钓到更好的男人;可以是学习水平工作能力都不如自己,但是因为他有趣又老实,便值得不离不弃托付终生,哪怕为此放弃自己的理想,哪怕这个男人分...
----------获取第24个影评结束----------
----------获取第25个影评开始----------
标题: 请提前上好厕所
作者: 潘妮的恐惧
影片: 末日崩塌
影评:   这是楼主近几年来看过最好的灾难片(废话,这几年都没啥灾难片好吗),导致看完的时候一直心有余悸,在地震来临,我们脆弱的人类又能做什么。

  为什么要提前上好厕所,因为电影节奏太快,而楼主因为看之前喝了不少水,影片开演的时候就想去上厕所,无奈,电影不让你去。开头就嗨起,让楼主生怕错过一个场面!终于,地震结束后,抓紧去上了个厕所,回来就后悔了!!!...
----------获取第25个影评结束----------
----------获取第26个影评开始----------
标题: 这部剧的重点不是美食
作者: zuiaiyafangng
影片: 孤独的美食家 第一季·台湾篇
影评: 《孤独的美食家》第一集没有看到孤独在哪,美食的入场镜头太短,全篇30多分钟相比较于日版略长,但是考虑到日版的原著作者出现时间,实际上台湾版比日版超出了三分之一的时间,而且,最关键的是故事本身很次啊,观众是奔着美食过来的,你却在不停讲梦想,有意思吗?用日版的话说就是:你剥夺了我们的“自由”。老老实实得拍拍美食就可以了,心太大了,还想学《深夜食堂》讲...
----------获取第26个影评结束----------
----------获取第27个影评开始----------
标题: 一口气看完3部的总结
作者: 筶1ha
影片: 窃听风云3
影评: 3次中,
吴彦祖死了2次,1次挂钩就死,1次主动寻死,最后1次真没犯事儿终于侥幸没死了
方中信2次戴绿帽,一次被射杀一次杀了奸夫但2次都死了,没的那次是中间第2部,戏里面没他
古天乐死了2次,1次是残了主动寻死,1次是最后被爆炸

最划算的是刘青云
3次都没死,并且人生赢家
第1次包庇下属跟兄弟老婆偷情后来抓到大BOSS犯罪证据立功
第2次轻微坐牢出来加入内部基...
----------获取第27个影评结束----------
----------获取第28个影评开始----------
标题: 一些看法
作者: 凯特殊
影片: 收播新闻
影评: 這片我已经看了很多遍了,我对它非常认可和欣赏。布鲁克斯的电影我看了3部,除了此片还有母女情深和尽善尽美。我觉得他的电影的一大特点就是内容特别丰富,比起一般类型片在主题上情节上人设上加入了很多东西,吸收起来不是那么容易。他的电影我查了一下,基本上都在2小时以上,这种剧本长度节奏不好控制,一旦拍不好了就容易变得冗长堆砌累赘。虽然我没看过他的另外三部电...
----------获取第28个影评结束----------
----------获取第29个影评开始----------
标题: 长大了一看:大雄就和比良坂医生一样面目可憎。
作者: 从此心安
影片: 哆啦A梦:伴我同行
影评: 本人家里多啦A梦的漫画有十几本,其中绝大多数是长篇,买于小学和初中阶段。那些从不掏钱买书看然后看见我的标题和评分就冲进来喷的人自重。

那些和我一样看漫画,甚至看得比我多得多的真粉丝,欢迎随便喷。

全片浮于表面,靠着经典好赚钱,就和漫威一样,随便拍个什么电影都能在赚钱又赚高分,但其实却是不好看,既不感动,也不搞笑,也没有想象力(本片,不是指多啦...
----------获取第29个影评结束----------
----------获取第30个影评开始----------
标题: Pitch Perfect 2 音乐全解析
作者: 孤岛森林
影片: 完美音调2
影评: 有谁会不喜欢电影呢?
有谁会不喜欢歌舞青春的电影呢?
有谁不喜欢主角是女性的歌舞青春电影呢?

《完美音调2》继承第一部的音乐实力,在演员方面做到完全回归,该片在上映首日便拿下2780万美元的好票房,超过了正在热映的《复仇者联盟2》。短短一周之内,它更是扩映至38个海外地区,劲收1520万美元,使其上映一周全球票房便达到1.8亿美元之巨,完胜之前被普遍看好的《...
----------获取第30个影评结束----------
----------获取第31个影评开始----------
标题: 贾庄夜游记
作者: 王富贵
影片: 一次别离
影评: 编者按:本学期的《中外法律文化》让学生们根据这部电影写一篇对话体小说——学生和老师之间的对话,以此来判断学生对本学期课程以及老师本人的了解程度(判断出勤率)。其中就出现了这篇寓言式的作文,创意、深度在众多作业中可谓出类拔萃。遂在其授权之下发布于此,一为鼓励和感谢,二则以飨影迷。 

文/吴瑞星

来贾庄半个月了,天还是一如既往地阴着。
小巷路旁的...
----------获取第31个影评结束----------
----------获取第32个影评开始----------
标题: 不打三星以上不让上影评是嘛?
作者: 小歌
影片: 孤独的美食家 第一季·台湾篇
影评: 本来评价是想给两星的,一星是给原版的大叔,另外一星是给曾经在我生命中留下浓墨重笔的台湾。但是当我打开豆瓣影评的那一刻,看见了全部都是三星以上,歌颂着美食文化和台湾文化,再加上海报上浓墨重笔的出品商优土豆,我就立马减了一星。原因很简单,剧情太烂,商业化太重。
本着支持国产(湾湾是我国领土不可分割的一部分噻)的原则,所以在刷微博的时候就顺便看了第一...
----------获取第32个影评结束----------
----------获取第33个影评开始----------
标题: 佳作欣赏的助产士
作者: Ubique
影片: 冰菓
影评: 看完冰菓的第一个感想是遗憾,遗憾于有很多观众会错失欣赏其美的机会:因为烦躁、偏见、沉闷、缓慢的节奏、单纯不合口味。

我希望写点东西,传达一下自己从中收获的况味,这样,或许有助于一二朋友耐下性子,在放弃之前找到欣赏它的节奏和感觉。

从一个推理门外汉的角度我直觉上认为冰菓首先是一部合格甚至优秀的推理作品。并不是只有猎奇的谋杀和奇诡的设计才造就好...
----------获取第33个影评结束----------
----------获取第34个影评开始----------
标题: 端大粪给孩子吃让大人买单
作者: taoxinxu释凡
影片: 潜艇总动员5:时光宝盒
影评: 按道理六一儿童节应多点《哆啦A梦:伴我同行》《头脑特工队》这类外国大片,再不地也是《绿林大冒险》《魁拔》《龙之谷》,如今反而扎堆着《潜艇总动员5》《金箍棒传奇2》等粗制滥造的烂片,尤其《潜艇总动员》每年儿童节就出来忽悠一笔。阿力和贝贝两大潜艇带着一群海底小动物,没心没肺地在“过家家”游戏中浪费时光,寡人心痛啊?有人说这片同《喜洋洋》《熊出没》一样是...
----------获取第34个影评结束----------
----------获取第35个影评开始----------
标题: 擦干泪,不要问,为什么
作者: 愤怒的熊喵喵
影片: 哆啦A梦:伴我同行
影评: 前几天,庵野秀明预言日本动画的寿命也就只有5年了,仔细想想近期看过的日漫有灌篮高手重制、龙珠改、还有死而复生的银魂第四季,都是回锅肉,让眼球舒爽一点而已,其余的,火影已结,柯南还在集集收命,看来海贼王还要坚挺5年?

扯远了回主题,机器猫是80后和90后的集体回忆之一,CCTV功不可没,若不是借中日文化交流之风引进了机器猫、圣斗士星矢、七龙珠等日漫动画片...
----------获取第35个影评结束----------
----------获取第36个影评开始----------
标题: 恶搞播音员
作者: 夜观风
影片: 王牌播音员
影评:     我一直对于装疯卖傻的喜剧没什么好感,这需要把智商拉到无限低才能将毫无逻辑连接的起承转合看作理所当然。
    圣迭戈的人民是有多没得选择才能把这样一个猥琐男人当成全民偶像,而这个男人是有多恬不知耻才能把一切的荣誉当做理所应当,而毫不修饰自己的无耻下流。
    作为以吊观众胃口方式登场的女主,Christina Applegate不够惊艳,当然配这帮歪瓜裂枣自然是足够...
----------获取第36个影评结束----------
----------获取第37个影评开始----------
标题: 未来不是你想改,想改就能改。
作者: x1ao4
影片: 时光穿梭
影评: 此片的设定是:未来无法更改,过去也无法改变,你只能控制现在。

影评不能发图片,愁,我只好甩地址了。

这是我画的时间轴介绍。也就是我的示意图详解。
http://www.douban.com/photos/photo/2247290029/
上方是拍摄照片,即早晚八点你做了什么;下方是输出照片,显示你第二天早晚八点做了什么。今天拍的照片是昨天输出的,今天输出的照片是明天拍的。

这是相机...
----------获取第37个影评结束----------
----------获取第38个影评开始----------
标题: 屌炸天的终极奥义!!
作者: 囚
影片: 功之怒
影评: 单就我个人感觉来说
打斗里总有点霹雳舞的味道
最后会战那里,黑客侠变身之后的造型,就是肩膀上那个小部件,我想起了一个老电影,一个机器人有自己意识之后和女主角生活在一起的电影,我就记得那肩膀上也是顶着一个激光盒子
霸王龙吃人那一段也是想起了侏罗纪公园
三角龙警察我想起了那个恐龙动画,反正好人这一边的恐龙大招是一起踩地板
动画部分各种老动画里能看到...
----------获取第38个影评结束----------
----------获取第39个影评开始----------
标题: 评《哆啦A梦:伴我同行》:关于成长的因果律
作者: seele
影片: 哆啦A梦:伴我同行
影评: 评《哆啦A梦:伴我同行》:关于成长的因果律

文:西早君

    曾有好事者于坊间戏言:“一个哆啦A梦足可匹敌整个漫威宇宙。”深思熟虑后我深以为然,不光因为这个“蓝胖子”的四次元口袋里信手拈来的奇妙道具,足可以穿越时空、改写因果、创造奇迹,更因为他与我们在童年相遇的那个不经意的时刻中,早已在我们心中种下了一颗超越岁月的因果种子——那便是关于友情、爱...
----------获取第39个影评结束----------
----------获取第40个影评开始----------
标题: 这是每集都要炸N炸的节奏???
作者: 芜念
影片: 奔腾年代 第二季
影评: 剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透剧透

EP01
...
----------获取第40个影评结束----------
----------获取第41个影评开始----------
标题: 希望能一直陪伴在你的身边
作者: 特立独行的猫
影片: 哆啦A梦:伴我同行
影评: “希望能一直陪伴在你的身边,为你付出,这执着的一瞬间,永远不会忘记。”
                                                                    ------- 题记

对哆啦A梦的情愫,要追忆到四五岁的时候。每天午觉醒来,都要看一集哆啦A梦的动画片,那时候我们叫他机器猫。长大的这十多年,每每偶然看到机器猫的动画片都会停下来重温一遍。现在看来,那些画面很简单...
----------获取第41个影评结束----------
----------获取第42个影评开始----------
标题: 野兽
作者: 牟才
影片: 荒野生存
影评: 野兽
——一则关于《荒野生存》的短评

这部影片最出彩的地方无关导演细致的拍摄和演员出彩的演出,甚至无关这个故事本身;从影片达成的社会效益而言,这是一曲浪漫主义的挽歌,也是一曲极端理想主义的哀歌。
无疑从感性层面来讲,影片一开始的音乐和阿拉斯加的雪景就足以唤起带有野性的审美体验——这也奠定了这部影片的基调:那头野兽。影片分为4个chapters,每一个都...
----------获取第42个影评结束----------
----------获取第43个影评开始----------
标题: 重温哆啦A梦:看完我为什么不开心
作者: 深深深藍
影片: 哆啦A梦:伴我同行
影评: 哆啦A梦本来应该是美好的童年记忆,或许我们每一个人都是曾经的大雄/静香,但是二十年后再重温,我不再是那个崇拜哆啦A梦的我,带着现实的有色眼镜看,一切都变了味。我开始质疑大雄的择偶观(动画片里也是个看脸的世界?),静香的婚姻观(因为被需要而不是因为被喜欢的奇怪理由选择婚姻),影片的意义(只是纯属娱乐?这样的片子给小朋友们看的教育意义何在?)......最后...
----------获取第43个影评结束----------
----------获取第44个影评开始----------
标题: 实在是太失望,根本就没有所谓的泪点
作者: Darwin
影片: 哆啦A梦:伴我同行
影评: 不知道是我长大了还是剧情毫无新意,感觉大雄让人生厌,根本就没有改正任何缺点,迟到了就用任意门解决,你就不能早起吗?考试不好就吃记忆面包,你不能真正的用功吗?用功一次就说自己为什么就算用功也考不好,大哥,你记错考试科目这也算真正的用功吗?最后终于要改变自己去救静香的时候用的方法居然是让未来的自己开车过来,亲,你这是作弊!现实生活中如果一个人身上有...
----------获取第44个影评结束----------
----------获取第45个影评开始----------
标题: 当我和世界初相见,当我曾经是少年
作者: 影启缘末
影片: 我们的前途是光明的
影评: 那天晚上回来迫不及待的看完了雷导的这部作品,说实话一开始的时候我实在是有一点崩溃,因为这个画质放成全屏之后,像素实在是有点渣,渣到有那么一点影响观看的程度。不过那有如何呢,当一部纪录片记载的是你所熟知的朋友与往事,看到他们的面孔浮现在银幕上,从一开始就注定了,我没法做到置身事外的客观评价。

看完这个片子之后,几次想写点什么,但是总感觉成不了篇...
----------获取第45个影评结束----------
----------获取第46个影评开始----------
标题: 天才只在青春年少
作者: Charlie Scene
影片: 青春年少
影评:       Max从来就不是一个天才。
   上课解答出世界上最难方程式,震惊全班这种事只能在梦里想想,他从来就不是那种成绩全级前十、身材高大、篮球吉他课外活动一个不差的天才少年。他只是,很可惜,一个会写点剧本的眼镜男,往往还不能兼顾学业。校长评论他是“全校最难搞的学生”,每天都有新想法:创办各种各样奇葩社团、建水族馆、批判拉丁文课程,没过多久又想法设法恢...
----------获取第46个影评结束----------
----------获取第47个影评开始----------
标题: 关于情怀
作者: 山旮旯的娃儿
影片: 哆啦A梦:伴我同行
影评: 童年的时光格外悠长,也不记得从什么时候开始接触[哆啦A梦]漫画了,断断续续反反复复看了有五六年吧。一开始我读小学,和大雄年纪相仿,我初中了,大雄还在小学折腾,然后高中,大雄依然在重复着迟到挨揍考鸭蛋。书中的时光似永远停滞在那两年,一如那片搁着水泥管的空地,那座大雄常去的学校后山,天长日久,从未变迁。

犹记得读书时放学回家,在午饭后,在做作业时随...
----------获取第47个影评结束----------
----------获取第48个影评开始----------
标题: 照顾他,照顾你
作者: 蓬蓬
影片: 哆啦A梦:伴我同行
影评: 昨晚和朋友喝酒的时候说起机器猫,我还颇不屑地说,这有什么好看的。但还是忍不住翻出了微信里一张海报给朋友看。是约架的画面感,机器猫对面一群、整整一群特别能打的动画人物,他呢,就那么面对着他们,手里攥着一小块砖头。

今天脑袋里又跳出这张海报,以及一点儿有些可笑的保护欲,就跑去看。

小时候机器猫打动我的,是口袋里那些神奇的道具,现在呢,是他和康夫...
----------获取第48个影评结束----------
----------获取第49个影评开始----------
标题: 劇透簡介-只上半段
作者: 影毒肥佬
影片: 壹狱壹世界:高登阔少蹲监日记
影评: 唔係影評, 簡介離嗮譜咁短. 補番下.
呢套戲由香江最熱網上平臺-高登上最潮小說改編嘅.  承接了一路向向.紅VAN等改編電影熱潮.
開場係益街坊女粉絲有福, 新男神王宗堯赤裸狂奔, 交代得罪咗阿積 (張建聲飾-一路向西的男主) 先有咁夸舉動.
跟手自嘲香江富二代必住港島南--係住港島南嘅赤柱花廳大牢先真. 原嚟佢花花大少喝多咗仲帶條三八波霸玩飛車玩冰火爆炸糖,  撞飛阿婆...
----------获取第49个影评结束----------
----------获取第50个影评开始----------
标题: Don Draper‘s Guide to picking up women
作者: 七宝
影片: 广告狂人 第七季
影评: Youtube: https://www.youtube.com/watch?v=dTTzw8_83vg

step one:
When in doubt, remain absolutely silent.

step two:
When asked about your past, give vague, open-ended answers. 

step three:
Have a great name. 

And finally, step four:
Look fantastic in a suit.
Look fantastic in casual wear.
Look fantastic in anything.
Sound...
----------获取第50个影评结束----------
----------写excel结束,路径:./excel/douban_hot_review.xls----------

excel内容:

时间: 2024-10-12 22:38:30

Python爬虫之抓取豆瓣影评数据的相关文章

Scrapy 通过登录的方式爬取豆瓣影评数据

Scrapy 通过登录的方式爬取豆瓣影评数据 爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来比较简单,主要分为以下几步: 1.创建一个项目 ==scrapy startproject Douban 得到一个项目目录如下: ├── Douban │   ├── init.py │   ├── items.py │   ├── pipelines.py │   ├── settings.py

Python爬虫入门 | 爬取豆瓣电影信息

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~好啦,正式开始我们的第二节课<爬取豆瓣电影信息>吧!啦啦哩啦啦,都看黑板~1. 爬虫原理1.1 爬虫基本原理听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从"爬虫原理"说起.爬虫又称为网页蜘蛛,是一种程序或脚本.但重点在于:它能够按照一定的规则,自动

Python爬虫实战---抓取图书馆借阅信息

原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约,影响日后借书,而自己又懒得总是登录到学校图书馆借阅系统查看,于是就打算写一个爬虫来抓取自己的借阅信息,把每本书的应还日期给爬下来,并写入txt文件,这样每次忘了就可以打开该txt文件查看,每次借阅信息改变了,只要再重新运行一遍该程序,原txt文件就会被新文件覆盖,里面的内容得到更新. 用到的技术: Python版本是 2.7 ,同时用到了ur

Python爬虫,抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿"德州扒鸡"做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击一个商品进入,在点击累计评论,打开F12开发者工具--网络,先清除现有的所有内容,然后点击下一页评论,在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型,如下图所示 这个html中就含

Python爬虫实现抓取腾讯视频所有电影【实战必学】

2019-06-27 23:51:51 阅读数 407  收藏 更多 分类专栏: python爬虫 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者: Python新手学习之家 用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*-   import re   import urllib2   from bs4 import BeautifulSoup   import stri

Python爬虫:抓取手机APP的数据

摘要: 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包 方法详细可以参考这篇博文:http://my.oschina.net/jhao104/blog/605963 得到超级课程表登录的地址:http://120.55.151.61/V2/StudentSkip/loginCheckV4.action 表单: 表单中包括了用户名和密码,当然都是加密过了的,还有一个设备信息,直接post过去就是.

Python结合BeautifulSoup抓取知乎数据

本文主要介绍利用Python登录知乎账号,抓取其中的用户名.用户头像.知乎的问题.问题来源.被赞数目.以及回答者.其中数据是配合Beautiful Soup进行解析的. 首先,要解决的是知乎登录问题.在程序中登录知乎我们直接提供用户名和密码是无法进行登录的,这里我们采用一个比较笨拙的办法直接在发送请求过程中附带上cookies.这个cookies值我们可以通过在火狐浏览器登录知乎时用firebug直接捕获.cookies获取如下图所示: [info] email =youremail passw

Scrapy 爬虫实例 抓取豆瓣小组信息并保存到mongodb中

这个框架关注了很久,但是直到最近空了才仔细的看了下 这里我用的是scrapy0.24版本 先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来. 先说明下这个玩具爬虫的目的 能够将种子URL页面当中的小组进行爬取 并分析出有关联的小组连接 以及小组的组员人数 和组名等信息 出来的数据大概是这样的 {    'RelativeGroups': [u'http://www.douban.com/group/10127/',           

python爬虫如何抓取代理服务器

一年前突然有个灵感,想搞个强大的网盘搜索引擎,但由于大学本科学习软件工程偏嵌入式方向,web方面的能力有点弱,不会jsp,不懂html,好久没有玩过sql,但就是趁着年轻人的这股不妥协的劲儿,硬是把以前没有学习的全部给学了一遍,现在感觉web原来也就那么回事.好了,废话就不说了,看到本文的读者,可以先看看我做的东西: 去转盘网:www.quzhuanpan.com ok搜搜:www.oksousou.com(这个是磁力,顺便拿出来给大伙观赏) 言归正传,由于我要爬取百度网盘,而度娘你懂的的搞爬虫