团队-爬取豆瓣电影-设计文档

团队成员:

  张晓亮,邵文强,宁培强,潘新宇,邵翰庆,李国峰,张立新

概要设计思路(https://github.com/Wooden-Robot/scrapy-tutorial):

     声明item:Items
(爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy spider可以以python的dict来返回提取的数据.虽然dict很方便,并且用起来也熟悉,但是其缺少结构性,容易打错字段的名字或者返回不一致的数据,尤其在具有多个spider的大项目中。
为了定义常用的输出数据,Scrapy提供了 Item 类。 Item 对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。)

     Spider
(class scrapy.spider.Spider
Spider是最简单的spider。每个其他的spider必须继承自该类(包括Scrapy自带的其他spider以及您自己编写的spider)。 Spider并没有提供什么特殊的功能。 其仅仅请求给定的 start_urls/start_requests ,并根据返回的结果(resulting responses)调用spider的 parse 方法。)

    使用xpath语法来提取我们所需的信息(可以在W3Schlool上参考)

    点击工具栏左上角的类鼠标符号图标或者Ctrl + Shift + c在页面中点击我们想要的元素即可在工具栏中看到它在网页HTML源码中所处的位置。

大致内容:

     表的设计

     获取每一页的内容

     获取当前页每一部电影的链接

     获取所有页的url连接

     获取当前页的字段值

     获取电影的排行次数

     获取电影名称

     获取导演名称

     获取电影评分

     获取电影描述

运行爬虫:

    打开cmd运行下列命令:

    scrapy crawl douban_movie_top250 -o douban.csv(douban_movie_top250即为我们刚刚写的爬虫的name, 而-o douban.csv是scrapy提供的将item输出为csv格式的快捷方式)

自动翻页:

  1. 在页面中找到下一页的地址;
  2. 自己根据URL的变化规律构造所有页面地址。

测试:

    进行最后的测试,检查代码的严谨性与程序的可执行性。

时间: 2024-12-30 08:42:08

团队-爬取豆瓣电影-设计文档的相关文章

团队-爬取豆瓣电影TOP250-开发文档

码云地址:https://gitee.com/nothingbigger/DouBantop250 所需编程语言:python 主要工作:代码补全及bug检查修改 部分代码: 1 #!/usr/bin/python 2 #-*- coding: utf-8 -*- 3 import sys 4 reload(sys) 5 sys.setdefaultencoding('utf8') 6 from bs4 import BeautifulSoup 7 import re 8 import urll

《团队-爬取豆瓣电影TOP250-成员简介及分工》

团队项目<爬取豆瓣电影TOP250>开发人员之一:张晓亮,性别男,15级软件技术专业学生,喜欢爱书和浏览网页信息.掌握的知识:Java语言开发,熟悉Python,C等开发语言.了解HTML5,CSS3,Javasprict等前端开发知识.可以熟练使用eclipse,Sequel Pro等软件开发工具. 在本次开发中担任:系统分析.对系统功能需求分析.用户体验设计进行归拢.对系统进度的控制,风险评估进有把控和人员的配置等

团队-爬取豆瓣电影Top250-项目总结

团队名称:极限定理 项目名称:爬取豆瓣电影Top250 组长:邵文强 成员:张晓亮.潘新宇.邵翰庆.宁培强.李国峰 关于功能:我们所做的是一个能够爬取豆瓣电影网的前250的排名程序,针对电影类别查询,统计,整合. 需求分析阶段:这个只是一个很小的程序,目的是为了帮助一部分懒人,当他们想找一下好看的电影的时候,又不想通过打开网页来一个一个翻,可以通过使用我们所做的一个小的程序很快爬取到前250的电影供参考,而且还有影片介绍等等可以进一步了解影片,可以供参考. 软件设计阶段: 分析设计:需求分析,项

团队-爬取豆瓣电影TOP250-需求分析

需求:爬取豆瓣电影TOP250 *向用户展示电影的排名,分数,名字,简介,导演,演员,前10条影评信息,链接信息 实现思路: 分析豆瓣电影TOP250的url规则, 编写模块获取相关url 获取全部相关页面的html代码 分析html中有关"排名,分数,名字,简介,导演,演员,前10条影评信息,链接信息"的标签 结合第三方工具包实现信息的提取 编写将"搜集信息"展示出来的模块

团队-爬取豆瓣电影TOP250-模块开发过程

团队名称:新秀 托管平台地址:https://gitee.com/wangdating/movie250 把爬取下来的电影信息排序 开发时间:10天

《团队-爬取豆瓣电影TOP250-设计文档》

搭建环境: 1.安装python3.4 2.安装pycharm集成开发环境 3.安装Git for Windows 4.安装python第三方包 bs4开发阶段: 1.团队成员申请并配置github账号 2.统计豆瓣top250的网页规则, 编写相应模块 3.查看网页的源码, 分析页面标签规则, 编写相应模块 4.将各部分逻辑代码, 分开解耦, 重构 5.编写settings模块, 提高程序的可制定性 6.排除出现的问题(1,团队成员的b4包安装问题) 7.上传到github

简单团队-爬取豆瓣电影top250-设计文档

项目介绍: 功能需求: 面向用户: 未来规划: 以上内容源自于在课上做的ppt内容,绝对本组ppt,并且真实有效.

《团队-爬取豆瓣电影TOP250-需求分析》

需求: 1.搜集相关电影网址 2.实现相关逻辑的代码 项目步骤: 1.通过豆瓣网搜索关键字,获取相关地址 2.根据第三方包实现相关逻辑

简单团队-爬取豆瓣电影T250-项目进度

本次主要讲解一下我们的页面设计及展示最终效果: 页面设计主要用到的软件是:html,css,js, 主要用的编译器是:sublime,dreamweaver,eclipse,由于每个人使用习惯不一样,所以有的人用的就简单点. 我们都统一使用的是谷歌浏览器浏览完成后的网页. 1.html代码部分: 2.css代码部分: 3.js代码部分: 代码过多在这就不展示了 4.整个代码包的展示 由于我们大部分是套用的其他好的网站的代码模式,所以比较容易. 还花钱购买了一个月的服务器,会看到效果. 页面高端,