Python网络爬虫笔记（五）：下载、分析京东P20销售数据

(一) 分析网页

下载下面这个链接的销售数据

https://item.jd.com/6733026.html#comment

1、翻页的时候，谷歌F12的Network页签可以看到下面的请求。

从Preview页签可以看出，这个请求是获取评论信息的

2、对比第一页、第二页、第三页…请求URL的区别

可以发现 page=0、page=1，0和1指的应该是页数。

第一页的 request url：没有这个rid=0& 。第二、三页…的request url：多了这个rid=0&

除了上面这2个地方,其他内容都是一样的。

3、直接在浏览器输入复制出来的request url，可以看到评论、颜色、版本、内存信息，代码将根据这些信息来写正则表达式进行匹配。

(二) 实现代码

delayed.py的代码和我前面发的是一样的(Python网络爬虫笔记（二）),不限速的话把和这个模块相关的代码删除就行了

 1 import urllib.request as ure
 2 import urllib.parse
 3 import openpyxl
 4 import re
 5 import os
 6 from delayed import WaitFor
 7 def download(url,user_agent=‘FireDrich‘,num=2,proxy=None):
 8     print(‘下载:‘+url)
 9     #设置用户代理
10     headers = {‘user_agent‘:user_agent}
11     request = ure.Request(url,headers=headers)
12     #支持代理
13     opener = ure.build_opener()
14     if proxy:
15         proxy_params = {urllib.parse.urlparse(url).scheme: proxy}
16         opener.add_handler(ure.ProxyHandler(proxy_params))
17     try:
18         #下载网页
19         # html = ure.urlopen(request).read()
20         html = opener.open(request).read()
21     except ure.URLError as e:
22         print(‘下载失败‘+e.reason)
23         html=None
24         if num>0:
25             #遇到5XX错误时，递归调用自身重试下载，最多重复2次
26             if hasattr(e,‘code‘) and 500<=e.code<600:
27                 return download(url,num=num-1)
28     return html
29 def writeXls(sale_list):
30     #如果Excel不存在，创建Excel，否则直接打开已经存在文档
31     if ‘P20销售情况.xlsx‘ not in os.listdir():
32         wb =openpyxl.Workbook()
33     else:
34         wb =openpyxl.load_workbook(‘P20销售情况.xlsx‘)
35     sheet = wb[‘Sheet‘]
36     sheet[‘A1‘] = ‘颜色‘
37     sheet[‘B1‘] = ‘版本‘
38     sheet[‘C1‘] = ‘内存‘
39     sheet[‘D1‘] = ‘评论‘
40     sheet[‘E1‘] = ‘评论时间‘
41     x = 2
42     #迭代所有销售信息（列表）
43     for s in sale_list:
44         #获取颜色等信息
45         content = s[0]
46         creationTime = s[1]
47         productColor = s[2]
48         productSize = s[3]
49         saleValue = s[4]
50         # 将颜色等信息添加到Excel
51         sheet[‘A‘ + str(x)] = productColor
52         sheet[‘B‘ + str(x)] = productSize
53         sheet[‘C‘ + str(x)] = saleValue
54         sheet[‘D‘ + str(x)] = content
55         sheet[‘E‘ + str(x)] = creationTime
56         x += 1
57     wb.save(‘P20销售情况.xlsx‘)
58
59 page = 0
60 allSale =[]
61 waitFor = WaitFor(2)
62 #预编译匹配颜色、版本、内存等信息的正则表达式
63 regex = re.compile(‘"content":"(.*?)","creationTime":"(.*?)".*?"productColor":"(.*?)","productSize":"(.*?)".*?"saleValue":"(.*?)"‘)
64 #这里只下载20页数据，可以设置大一些（因为就算没评论信息，也能下载到一些标签信息等，所以可以if 正则没匹配的话就结束循环，当然，下面没处理这个）
65 while page<20:
66     if page==0:
67         url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv176&productId=6733026&score=0&sortType=5&page=‘ + str(page) + ‘&pageSize=10&isShadowSku=0&fold=1‘
68     else:
69         url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv176&productId=6733026&score=0&sortType=5&page=‘ + str(page) + ‘&pageSize=10&isShadowSku=0&rid=0&fold=1‘
70     waitFor.wait(url)
71     html = download(url)
72     html = html.decode(‘GBK‘)
73     #以列表形式返回颜色、版本、内存等信息
74     sale = regex.findall(html)
75     #将颜色、版本、内存等信息添加到allSale中（扩展allSale列表）
76     allSale.extend(sale)
77     page += 1
78
79 writeXls(allSale)

(三) 数据分析

1、下载后的数据如下图所示。

2、生成图表。

原文地址：https://www.cnblogs.com/simple-free/p/8884098.html

时间： 2024-10-25 17:47:36

Python网络爬虫笔记（五）：下载、分析京东P20销售数据的相关文章

python网络爬虫笔记（四）

一.python中的高阶函数算法 1.sorted()函数的排序 sorted()函数是一个高阶函数,还可以接受一个key函数来实现自定义的函数排序,key指定的函数作用于每个序列元素上,并根据key函数返回的结果进行排序.在默认的情况下对字符的排序是按照ASCII的大小比较的由于'Z'<'a',所以大写字母会在小写字母的前面. 2.高阶函数可接受函数作为参数外,还可以把函数作为结果值返回,使用lazy_sum函数中定义了函数sum,内部函数sum可以引用外部函数lazy_sum的参数和局部

python网络爬虫笔记（九）

4.1.1 urllib2 和urllib是两个不一样的模块 urllib2最简单的就是使用urllie2.urlopen函数使用如下 urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]]]) 按照文档urllib2.urlopen可以打开HTTP HTTPS FTP协议的URL链接地址,主演使用HTTP协议,他的参数以ca开头的都是跟身份验证有关,不常使用,data参数是post方法提交URL时

Python网络爬虫

http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成一个网站,那么

Python]网络爬虫

Originated From: http://blog.csdn.net/pi9nc/article/details/9734437#comments [Python]网络爬虫(一):抓取网页的含义和URL基本构成一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍: 2. 从简单语句中开始: 3. 传送数据给服务器 4. HTTP头-描述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 11. Deb

Python网络爬虫实战案例之：7000本电子书下载（2）

一.前言本文是<Python开发实战案例之网络爬虫>的第二部分:7000本电子书下载网络爬虫开发环境安装部署.配套视频课程详见51CTO学院. 二.章节目录 (1)Python开发环境依赖(2)Python依赖程序安装(3)Requests-html安装(4)Requests-html 源码框架下载(5)Requests-html 开发指导手册三.正文 3.1 Python开发环境依赖 3.2 Python依赖程序安装 3.3 requests-html安装 3.4 requests-ht

Python网络爬虫实战案例之：7000本电子书下载（3）

一.前言本文是<Python开发实战案例之网络爬虫>的第三部分:7000本电子书下载网络爬虫开发实战详解.配套视频课程详见51CTO学院请添加链接描述. 二.章节目录 3.1 业务流程3.2 页面结构分析:目录页3.3 页面结构分析:详情页3.4 页面请求和响应:目录页4.5 页面请求和响应:详情页3.4 三.正文 3.1 业务流程 3.2.1 页面结构分析-目录页 3.2.2 页面结构分析-详情页 3.3 页面请求与解析-目录页 3.4 页面请求与解析-详情页 3.5 文件下载四.未完待

Python网络爬虫实战案例之：7000本电子书下载（4）

一.前言本文是<Python开发实战案例之网络爬虫>的第四部分:7000本电子书下载网络爬虫-源码框架剖析.配套视频课程详见:51CTO学院. 二.章节目录 3.1 requests-html文件结构3.2 requests-html源码框架3.3 导入依赖库3.4 HTMLSession请求类3.5 HTMLResponse请求响应类3.6 HTML页面结构类三.正文 3.1 requests-html 文件结构 3.2 requests-html源码框架 3.3 导入依赖库 3.4 H