抓取豆瓣的电影排行榜TOP100

 1 #!/usr/bin/env python
 2 # -*- coding:utf-8 -*-
 3 """
 4 一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称
 5 Anthor: Andrew Liu
 6 Version: 0.0.1
 7 Date: 2014-12-04
 8 Language: Python2.7.8
 9 Editor: Sublime Text2
10 Operate: 具体操作请看README.md介绍
11 """
12 import string
13 import re
14 import urllib2
15
16 class DouBanSpider(object) :
17     """类的简要说明
18     本类主要用于抓取豆瓣前100的电影名称
19
20     Attributes:
21         page: 用于表示当前所处的抓取页面
22         cur_url: 用于表示当前争取抓取页面的url
23         datas: 存储处理好的抓取到的电影名称
24         _top_num: 用于记录当前的top号码
25     """
26
27     def __init__(self) :
28         self.page = 1
29         self.cur_url = "http://movie.douban.com/top250?start={page}&filter=&type="
30         self.datas = []
31         self._top_num = 1
32         print "豆瓣电影爬虫准备就绪, 准备爬取数据..."
33
34     def get_page(self, cur_page) :
35         """
36         根据当前页码爬取网页HTML
37         Args:
38             cur_page: 表示当前所抓取的网站页码
39         Returns:
40             返回抓取到整个页面的HTML(unicode编码)
41         Raises:
42             URLError:url引发的异常
43         """
44         url = self.cur_url
45         try :
46             my_page = urllib2.urlopen(url.format(page = (cur_page - 1) * 25)).read().decode("utf-8")
47         except urllib2.URLError, e :
48             if hasattr(e, "code"):
49                 print "The server couldn‘t fulfill the request."
50                 print "Error code: %s" % e.code
51             elif hasattr(e, "reason"):
52                 print "We failed to reach a server. Please check your url and read the Reason"
53                 print "Reason: %s" % e.reason
54         return my_page
55
56     def find_title(self, my_page) :
57         """
58         通过返回的整个网页HTML, 正则匹配前100的电影名称
59
60         Args:
61             my_page: 传入页面的HTML文本用于正则匹配
62         """
63         temp_data = []
64         movie_items = re.findall(r‘<span.*?class="title">(.*?)</span>‘, my_page, re.S)
65         for index, item in enumerate(movie_items) :
66             if item.find("&nbsp") == -1 :
67                 temp_data.append("Top" + str(self._top_num) + " " + item)
68                 self._top_num += 1
69         self.datas.extend(temp_data)
70
71     def start_spider(self) :
72         """
73         爬虫入口, 并控制爬虫抓取页面的范围
74         """
75         while self.page <= 4 :
76             my_page = self.get_page(self.page)
77             self.find_title(my_page)
78             self.page += 1
79
80 def main() :
81     print """
82         ###############################
83             一个简单的豆瓣电影前100爬虫
84             Author: Andrew_liu
85             Version: 0.0.1
86             Date: 2014-12-04
87         ###############################
88     """
89     my_spider = DouBanSpider()
90     my_spider.start_spider()
91     for item in my_spider.datas :
92         print item
93     print "豆瓣爬虫爬取结束..."
94
95 if __name__ == ‘__main__‘:
96     main()

运行的结果:

时间: 2024-10-05 19:11:57

抓取豆瓣的电影排行榜TOP100的相关文章

003.[python学习] 简单抓取豆瓣网电影信息程序

声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 4 5 import sys 6 reload(sys) 7 sys.setdefaultencoding('utf-8') #解决编码问题 8 9 10 """一个简单的从豆瓣网获取电

用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from selenium import webdriver import unittest from time import sleep class DoubanMovie(unittest.TestCase):     def setUp(self):          self.dr = webdriv

1-1 用Python抓取豆瓣及IMDB上的电影信息

下面的代码可以抓取豆瓣及IMDB上的电影信息,由于每段代码使用的数据源自上一段代码输出的数据,所以需要按顺序执行. step1_getDoubanMovies.py 1 # -*- coding: utf-8 -*- 2 ''' 3 该脚本得到豆瓣上所有电影的如下信息: 4 "rate": "7.5", 5 "cover_x": 2000, 6 "is_beetle_subject": false, 7 "title

用python+selenium抓取豆瓣读书中最受关注图书,按照评分排序

抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评论 #coding=utf-8 from selenium import webdriver from time import sleep class DoubanPopularBook:     def __init__(self):         self.dr = webdriver.Chrome()         self.

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象.同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习.        总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~ 一. DOM树结构分析 豆瓣Top250电影网址:https://movie.douban.com/top2

python实现爬虫(一)--- Scrapy框架抓取豆瓣书籍信息

Scrapy是一个用python实现都爬虫框架,简单易用,功能强大,只需要在框架的基础上自定义自己的分析规则即可,具体如何新建工程等待都在官方文档上面讲解得非常清楚,官方文档tutorial(http://doc.scrapy.org/en/latest/intro/tutorial.html)请保证下载较新版本的Scrapy(我的是0.24.2,scrapy -v)旧版本会出现一些问题. 下面我使用Scrapy抓取豆瓣上面编程书籍的一些简单信息 一.准备爬取的页面如下,新建一个douban工程

python爬虫抓取豆瓣电影

抓取电影名称以及评分,并排序(代码丑炸) 1 import urllib 2 import re 3 from bs4 import BeautifulSoup 4 def get(p): 5 t=0 6 k=1 7 n=1 8 book_score=[] 9 book_a=[] 10 while t<=p: 11 print "正在获取第%d页..."%k 12 k=k+1 13 url="https://movie.douban.com/tag/%s?start=%

基于Casperjs的网页抓取技术【抓取豆瓣信息网络爬虫实战示例】

CasperJS is a navigation scripting & testing utility for the PhantomJS (WebKit) and SlimerJS (Gecko) headless browsers, written in Javascript. PhantomJS是基于WebKit内核的headless browser SlimerJS则是基于Gecko内核的headless browser Headless browser: 无界面显示的浏览器,可以用于

Python爬虫之抓取豆瓣影评数据

脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息写入excel中 页面信息如下: 一共5页,需要循环访问不同的页面 HTML源代码: <a class="" title="<权力的游戏>S5E8:凛冬已至,凡人皆死" href="http://movie.douban.com/review