豆瓣电影TOP250

for ($start = 0; $start < 250; $start += 25) {
    $url = "http://movie.douban.com/top250?start=$start&filter=&type=";
    $titles = parsePage($url);
    if ($titles === false) {
        echo $url, "\n";
    } else {
        array_walk($titles, ‘printTitle‘);
    }
}

function parsePage($url) {
    $html = file_get_contents($url);
    if ($html === false) {
        return false;
    }
    
    if (preg_match_all(‘/<a.+?<span class="title">([^<]+)/s‘, $html, $matches) === false) {
        return false;
    }
    
    $titles = array();
    foreach($matches[1] as $item) {
        $titles[] = iconv(‘utf-8‘, ‘gbk‘, $item);
    }
    return $titles;
}

$count = 0;
function printTitle($title) {
    global $count;
    ++$count;
    printf("%3d %s\n", $count, $title);
}

1 肖申克的救赎

2 这个杀手不太冷

3 阿甘正传

4 霸王别姬

5 美丽人生

6 海上钢琴师

7 辛德勒的名单

8 千与千寻

9 机器人总动员

10 泰坦尼克号

11 盗梦空间

12 三傻大闹宝莱坞

13 放牛班的春天

14 忠犬八公的故事

15 龙猫

16 教父

17 大话西游之大圣娶亲

18 乱世佳人

19 天堂电影院

20 搏击俱乐部

21 当幸福来敲门

22 楚门的世界

23 指环王3:王者无敌

24 罗马假日

25 触不可及

26 海豚湾

27 两杆大烟枪

28 十二怒汉

29 天空之城

30 鬼子来了

31 飞越疯人院

32 飞屋环游记

33 大话西游之月光宝盒

34 怦然心动

35 窃听风暴

36 无间道

37 天使爱美丽

38 V字仇杀队

39 蝙蝠侠:黑暗骑士

40 闻香识女人

41 熔炉

42 指环王2:双塔奇兵

43 指环王1:魔戒再现

44 美丽心灵

45 活着

46 少年派的奇幻漂流

47 教父2

48 七宗罪

49 剪刀手爱德华

50 情书

51 勇敢的心

52 哈尔的移动城堡

53 美国往事

54 死亡诗社

55 钢琴家

56 致命魔术

57 音乐之声

58 狮子王

59 被嫌弃的松子的一生

60 小鞋子

61 低俗小说

62 玛丽和马克思

63 入殓师

64 蝴蝶效应

65 沉默的羔羊

66 本杰明·巴顿奇事

67 黑客帝国

68 大鱼

69 射雕英雄传之东成西就

70 阳光灿烂的日子

71 拯救大兵瑞恩

72 幽灵公主

73 第六感

74 让子弹飞

75 饮食男女

76 上帝之城

77 阳光姐妹淘

78 心灵捕手

79 西西里的美丽传说

80 萤火虫之墓

81 大闹天宫

82 甜蜜蜜

83 一一

84 重庆森林

85 海洋

86 春光乍泄

87 爱在黎明破晓前

88 爱在日落黄昏时

89 风之谷

90 告白

91 加勒比海盗

92 燃情岁月

93 驯龙高手

94 阿凡达

95 侧耳倾听

96 致命ID

97 虎口脱险

98 真爱至上

99 超脱

100 禁闭岛

101 菊次郎的夏天

102 摩登时代

103 电锯惊魂

104 幸福终点站

105 神偷奶爸

106 岁月神偷

107 借东西的小人阿莉埃蒂

108 猜火车

109 东邪西毒

110 断背山

111 穿越时空的少女

112 贫民窟的百万富翁

113 雨人

114 魂断蓝桥

115 七武士

116 记忆碎片

117 恋恋笔记本

118 谍影重重3

119 猫鼠游戏

120 怪兽电力公司

121 辩护人

122 倩女幽魂

123 卢旺达饭店

124 秒速5厘米

125 我是山姆

126 玩具总动员3

127 疯狂原始人

128 雨中曲

129 碧海蓝天

130 人工智能

131 穿条纹睡衣的男孩

132 撞车

133 教父3

134 海盗电台

135 香水

136 哈利·波特与魔法石

137 纵横四海

138 英雄本色

139 傲慢与偏见

140 黑天鹅

141 冰川时代

142 完美的世界

143 狩猎

144 浪潮

145 迁徙的鸟

146 末代皇帝

147 杀人回忆

148 控方证人

149 素媛

150 荒野生存

151 喜宴

152 可可西里

153 追随

154 梦之安魂曲

155 朗读者

156 战争之王

157 燕尾蝶

158 罗生门

159 布达佩斯大饭店

160 一次别离

161 红辣椒

162 萤火之森

163 绿里奇迹

164 叫我第一名

165 勇闯夺命岛

166 卡萨布兰卡

167 地球上的星星

168 英国病人

169 穆赫兰道

170 哈利·波特与死亡圣器(下)

171 两小无猜

172 谍影重重

173 E.T. 外星人

174 变脸

175 惊魂记

176 曾经

177 谍影重重2

178 阿飞正传

179 上帝也疯狂

180 这个男人来自地球

181 发条橙

182 蓝色大门

183 巴黎淘气帮

184 爱·回家

185 麦兜故事

186 魔女宅急便

187 蝴蝶

188 爱在暹罗

189 花样年华

190 非常嫌疑犯

191 与狼共舞

192 哪吒闹海

193 中央车站

194 唐伯虎点秋香

195 黄金三镖客

196 美国丽人

197 终结者2

198 罪恶之城

199 末路狂花

200 新龙门客栈

201 夜访吸血鬼

202 暖暖内含光

203 勇士

204 喜剧之王

205 青蛇

206 7号房的礼物

207 黑客帝国3:矩阵革命

208 城市之光

209 忠犬八公物语

210 偷拐抢骗

211 恐怖游轮

212 初恋这件小事

213 源代码

214 东京物语

215 恐怖直播

216 遗愿清单

217 无耻混蛋

218 跳出我天地

219 我们俩

220 时空恋旅人

221 导盲犬小Q

222 不一样的天空

223 国王的演讲

224 荒岛余生

225 再见列宁

226 寿司之神

227 牯岭街少年杀人事件

228 血钻

229 角斗士

230 我在伊朗长大

231 大卫·戈尔的一生

232 月球

233 廊桥遗梦

234 莫扎特传

235 疯狂约会美丽都

236 无敌破坏王

237 未麻的部屋

238 伴我同行

239 洛城机密

240 千钧一发

241 我爱你

242 蝙蝠侠:黑暗骑士崛起

243 八月迷情

244 假如爱有天意

245 速度与激情5

246 黑鹰坠落

247 枪火

248 刺猬的优雅

249 帝企鹅日记

250 疯狂的石头

时间: 2024-10-27 19:41:21

豆瓣电影TOP250的相关文章

Node.js学习 爬虫下载豆瓣电影top250图片

利用node.js实现爬虫,并且爬取豆瓣电影top250的列表和图片. 1 什么是node.js 简单的说 Node.js 就是运行在服务端的 JavaScript.Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台.Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎 2 什么是爬虫 (又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 3

练习:一只豆瓣电影TOP250的爬虫

练习:一只豆瓣电影TOP250爬虫 练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapy class DoubanmovieItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() rank = scrapy.Field() title = scrapy.Field() link = scrapy.Field() rate

【转】爬取豆瓣电影top250提取电影分类进行数据分析

一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了,接下来就使用我们python强大的request库先获取网页内容下来吧!获取内容后,再使用一个好用的lxml库来分析网页内容,然后获取我们的内容就可以做下一步操作了.先贴出使用request库和lxml分析的代码 1 def get_page(i): 2 url = 'https://movie.d

python爬虫练习1:豆瓣电影TOP250

项目1:实现豆瓣电影TOP250标题爬取: 1 from urllib.request import urlopen 2 from bs4 import BeautifulSoup 3 import re 4 5 class doubanSpider(): 6 def __init__(self): 7 """ 8 初始化, 9 页码,URL,存储数据, 10 """ 11 self.page = 0; 12 # "http://mov

scrapy爬取豆瓣电影top250

1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣电影top250 3 4 import scrapy 5 from douban.items import DoubanItem 6 7 8 class DoubanspiderSpider(scrapy.Spider): 9 name = "doubanspider" 10 # allowed_domains = ["movie.douban.com/top250"]注意这里的主页限制

运维学python之爬虫高级篇(五)scrapy爬取豆瓣电影TOP250

对于scrapy我们前面已经介绍了简单的应用,今天我们用一个完整的例子,爬取豆瓣电影TOP250来做一个小的练习,把scrapy阶段做一个总结. 1 环境配置 语言:Python 3.6.1 IDE: Pycharm 浏览器:firefox 爬虫框架:Scrapy 1.5.0 操作系统:Windows 10 家庭中文版 2 爬取前分析 2.1 需要保存的数据 首先确定我们要获取的内容,在items中定义字段,来将非结构化数据生成结构化数据,获取的内容主要包括:排名.电影名称.得分.评论人数.如下

Python小爬虫——抓取豆瓣电影Top250数据

写LeetCode太累了,偶尔练习一下Python,写个小爬虫玩一玩~ 确定URL格式 先找到豆瓣电影TOP250任意一页URL地址的格式,如第一页为:https://movie.douban.com/top250?start=0&filter=,分析该地址: https:// 代表资源传输协议使用https协议: movie.douban.com/top250 是豆瓣的二级域名,指向豆瓣服务器: /top250 是服务器的某个资源: start=0&filter= 是该URL的两个参数,

[感想]Web crawler with Python - 03.豆瓣电影TOP250

按照大牛的步骤简单地爬了豆瓣电影top250.过程感想记录一下. 教程链接:在这里 爬虫写完以后,一直出现错误 AttributeError: 'NoneType' object has no attribute 'find' #'nonetype'的对象没有属性发现 出错原因:调用对象是个None,然后调用出错.出错行原本是在第10页没有下一页的链接时候,判断soup.find('span', attrs={'class', 'next'}).find('a')  这句话的结果来选择返回结果,

利用selenium爬取豆瓣电影Top250

这几天在学习selenium,顺便用selenium + python写了一个比较简陋的爬虫,现附上源码,有时间再补充补充: 1 from selenium import webdriver 2 from selenium.webdriver.support.wait import WebDriverWait 3 from selenium.webdriver.support import expected_conditions as EC 4 from selenium.webdriver.c

今天懒一次 豆瓣电影Top250

今天不写代码,休息一下 1 import requests 2 from lxml import etree 3 from urllib import parse 4 offset = -25 5 i = 0 6 url = 'https://movie.douban.com/top250?start=' 7 8 while offset < 225: 9 offset += 25 10 11 start_urls = (url+str(offset)) 12 headers = { 13 'U