用Python分分钟爬取豆瓣本周口碑榜,就是有这么秀!

平常在生活中,不知道大家是怎么找电影的,反正小编是通过电影本周口碑榜来找的,个人感觉通过这种方式找来的电影都挺不错的。既然提到口碑榜,不如我们来爬下豆瓣电影本周口碑榜上的电影吧,怎么爬嘞,当然是用我们的Python爬虫啦!下面开始简单的介绍如何写爬虫。

在写爬虫前,我们首先简单明确两点:

1. 爬虫的网址;

2. 需要爬取的内容(数据)。

  1. 鼠标点击需要爬取的数据,这里我们点“看不见的客人”,如图所示。

  1. 看到大红色框框里的东西,是不是和我们最“重要”的代码有很多相似的地方。
  2. 再看来最后一行代码中最“重要”的部分。
  3. ‘//td[@class=”title”]//a/text()’
  • //td :这个相当于指定是大目录;
  • [@class=”title”]:这个相当于指定的小目录;
  • //a :这个相当于最小的目录;
  • /text():这个是提取其中的数据。

爬虫介绍结束,看完你也该试试手了。

试试爬“即将上映”

这个只需将最后一行代码改成

result=tree.xpath(‘//li[@class="title"]//a/text()‘)1

如图所示“即将上映”的电影就被你爬下来了。

是不是觉得爬虫真的很简单,已经完全学会了。然而现实中,爬虫会面临很多问题的,比如:

1. 页面规则不统一;

2. 爬下来的数据处理;

3. 反爬虫机制。

等等很多很多类似的各种问题,想要成为真的Python爬虫大神,还是得一步一步来的,饭要一口一口吃的嘛!

以上就是本文的全部内容,希望对各位小伙伴们有所帮助!

写在最后:

有想学Python或者对Python感兴趣的老铁,可以加群571799375,群里有适合Python初学者学习的资料(2018最新版Python资料),免费送给大家!

本文来自网络,如有侵权,请联系小编删除!

原文地址:https://www.cnblogs.com/666fx/p/10192491.html

时间: 2024-07-30 19:35:50

用Python分分钟爬取豆瓣本周口碑榜,就是有这么秀!的相关文章

Python爬虫 爬取豆瓣读书

最近用Python写了个豆瓣读书的爬虫玩,方便搜罗各种美美书,分享给大家 实现功能: 1 可以爬下豆瓣读书标签下的所有图书 2 按评分排名依次存储 3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍:可依据不同的主题存储到Excel不同的Sheet 4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封 试着爬了七八万本书,存在了book_list.xlsx中,结果截图如下: 详细代码和爬取的一些结果可移步到GitHub

【图文详解】scrapy安装与真的快速上手——爬取豆瓣9分榜单

写在开头 现在scrapy的安装教程都明显过时了,随便一搜都是要你安装一大堆的依赖,什么装python(如果别人连python都没装,为什么要学scrapy-.)wisted, zope interface,pywin32---现在scrapy的安装真的很简单的好不好! 代码我放github上了,可以参考: https://github.com/hk029/doubanbook 为什么要用scrapy 我之前讲过了requests,也用它做了点东西,([图文详解]python爬虫实战--5分钟做

使用scrapy简易爬取豆瓣9分榜单图书并存放在mysql数据库中

注:大部分内容参考http://www.cnblogs.com/voidsky/p/5490798.html 首先创建一个项目douban9fen [email protected]:~/pachong$ scrapy startproject douban9fen New Scrapy project 'douban9fen', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/p

Python爬虫爬取豆瓣电影名称和链接,分别存入txt,excel和数据库

前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf-8 -*- import urllibimport urllib2import sysimport reimport sslimport openpyxlimport MySQLdbimport time #from bs4 import BeautifulSoup #修改系统默认编码为utf-8

python爬虫--爬取豆瓣top250电影名

关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝. 1 import requests 2 from bs4 import BeautifulSoup 5 def get_movies(): 6 headers = { 7 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom

python xpath 爬取豆瓣电脑版电影案例

from lxml import etree import requests url = 'https://movie.douban.com/chart' headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36" } response

python爬虫爬取豆瓣电影前250名电影及评分(requests+pyquery)

写了两个版本: 1.面向过程版本: import requests from pyquery import PyQuery as pq url='https://movie.douban.com/top250' moves=[] def sec(item): return item[1] for i in range(0,255,25): content=requests.get(url+"?start="+str(i))#?start=25 for movie in pq(conte

python日常—爬取豆瓣250条电影记录

# 感兴趣的同仁可以相互交流哦 import requests import lxml.html,csv doubanUrl = 'https://movie.douban.com/top250?start={}&filter=' def getSource(doubanUrl): response = requests.get(doubanUrl) # 获取网页 response.encoding = 'utf-8' # 修改编码 return response.content #获取源码 d

使用scrapy简易爬取豆瓣9分榜单图书

注:部分内容参考http://www.cnblogs.com/voidsky/p/5490798.html 首先创建一个项目douban9fen [email protected]:~/pachong$ scrapy startproject douban9fen New Scrapy project 'douban9fen', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/pr