scrapy爬取豆瓣电影top250

 1 # -*- coding: utf-8 -*-
 2 # scrapy爬取豆瓣电影top250
 3
 4 import scrapy
 5 from douban.items import DoubanItem
 6
 7
 8 class DoubanspiderSpider(scrapy.Spider):
 9     name = "doubanspider"
10     # allowed_domains = ["movie.douban.com/top250"]注意这里的主页限制,一旦翻页可能超出范围
11     start_urls = [‘http://movie.douban.com/top250‘]
12
13     def parse(self, response):
14         item = DoubanItem()
15         for each in response.css(‘.article .grid_view li‘):
16             title = each.css(‘.item .hd .title:nth-child(1)::text‘).extract_first()
17             content = each.css(‘.item .bd p::text‘).extract_first().strip()
18             rating_num = each.css(‘.item .bd .star .rating_num::text‘).extract_first()
19             quote = each.css(‘.item .bd .quote span::text‘).extract_first()
20             image = each.css(‘.item .pic a img::attr(src)‘).extract_first()
21             item[‘title‘] = title
22             item[‘content‘] = content
23             item[‘rating_num‘] = rating_num
24             item[‘quote‘] = quote
25             item[‘image‘] = image
26
27             yield item
28
29         # 构造下一页的请求
30         next = response.css(‘.paginator .next a::attr(href)‘).extract_first()
31         if next:
32             url = ‘http://movie.douban.com/top250‘ + next
33             print(url)
34             yield scrapy.Request(url=url, callback=self.parse)
时间: 2024-10-09 04:54:04

scrapy爬取豆瓣电影top250的相关文章

运维学python之爬虫高级篇(五)scrapy爬取豆瓣电影TOP250

对于scrapy我们前面已经介绍了简单的应用,今天我们用一个完整的例子,爬取豆瓣电影TOP250来做一个小的练习,把scrapy阶段做一个总结. 1 环境配置 语言:Python 3.6.1 IDE: Pycharm 浏览器:firefox 爬虫框架:Scrapy 1.5.0 操作系统:Windows 10 家庭中文版 2 爬取前分析 2.1 需要保存的数据 首先确定我们要获取的内容,在items中定义字段,来将非结构化数据生成结构化数据,获取的内容主要包括:排名.电影名称.得分.评论人数.如下

Scrapy爬取豆瓣电影top250的电影数据、海报,MySQL存储

从GitHub得到完整项目(https://github.com/daleyzou/douban.git) 1.成果展示 数据库 本地海报图片 2.环境 (1)已安装Scrapy的Pycharm (2)mysql (3)连上网络的电脑 3.实体类设计 4.代码 items.py 1 class DoubanItem(scrapy.Item): 2 title = scrapy.Field() 3 bd = scrapy.Field() 4 star = scrapy.Field() 5 quot

03_使用scrapy框架爬取豆瓣电影TOP250

前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息.其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中.本次爬取的内容实则不难.主要是熟悉scrapy相关命令以及理解框架各部分的作用. 1.本次目标 爬取豆瓣电影TOP250的信息,将得到的数据保存到mongoDB中. 2.准备工作 需要安装好scrapy以及mongoDB,安装步骤这里不做赘述.(这里最好是先了解scrapy框架各个部分的基本作用和基础知识,这样方便后面的内容的理解.scrapy文档

【转】爬取豆瓣电影top250提取电影分类进行数据分析

一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了,接下来就使用我们python强大的request库先获取网页内容下来吧!获取内容后,再使用一个好用的lxml库来分析网页内容,然后获取我们的内容就可以做下一步操作了.先贴出使用request库和lxml分析的代码 1 def get_page(i): 2 url = 'https://movie.d

爬取豆瓣电影Top250和和豆瓣图书

豆瓣电影top250url:https://movie.douban.com/top250?start=0&filter= 首先f12进入检查CTRL +shift +c定位到标题 可以看到电影标题在<a>标签下,所以我们只要定位到a标签下就可以了,我们找到<a>标签的最上一级标签<div>标签属性class=item,好了现在我们大概有了思路了,现在让我来写代码吧 第一步:设置请求头headers headers = {'User-Agent': 'Mozil

利用selenium爬取豆瓣电影Top250

这几天在学习selenium,顺便用selenium + python写了一个比较简陋的爬虫,现附上源码,有时间再补充补充: 1 from selenium import webdriver 2 from selenium.webdriver.support.wait import WebDriverWait 3 from selenium.webdriver.support import expected_conditions as EC 4 from selenium.webdriver.c

爬取豆瓣电影Top250信息

# -*- coding:utf-8 -*- __author__ = "MuT6 Sch01aR" import requests from pyquery import PyQuery def GetDouBanMovie(): a = 1 for i in range(0,250,25): url = "https://movie.douban.com/top250?start=%s&filter=" %i r = requests.get(url)

python 爬取 豆瓣电影top250 存储到mysql

数据分析师 想在本地找一些开源bi做一些数据可视化的呈现 先在网上扒拉点数据,存储到了本地 主要是学习学习python的爬虫 先在本地建了mysql的表 (比较粗暴) CREATE TABLE `doubanmovie` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` text COMMENT '电影名称', `director` text COMMENT '导演', `actor` text COMMENT '演员', `style` text C

团队编程项目代码设计规范(爬取豆瓣电影top250)

队长博客链接:http://www.cnblogs.com/nullblogs/p/7612883.html 基本格式 缩进 使用4个空格进行缩进 行宽 每行代码尽量不超过80个字符 理由: 这在查看side-by-side的diff时很有帮助 方便在控制台下查看代码 太长可能是设计有缺陷 换行 Python支持括号内的换行.这时有两种情况. 第二行缩进到括号的起始处 foo = long_function_name(var_one, var_two, var_three, var_four)