关于“淘宝爆款”的数据抓取与数据分析

本文为younghz原创，文章链接为：http://blog.csdn.net/u012150179/article/details/37306629

这个问题最初是源于我在知乎上一个回答（http://www.zhihu.com/question/24368542/answer/27579662），涉及了两个方面：数据抓取和数据分析。

1、数据爬取

爬取对象：淘宝“连衣裙夏”的搜索结果。

爬取对象的选择分析我在文章中也有提及。

工具：Scrapy。

代码：我把当时实现的代码放在了GitHub上。地址：https://github.com/younghz/TBBKAnalysis，感兴趣的能够看一下。关于Scrapy的知识与爬虫的编写能够见专栏：http://blog.csdn.net/column/details/younghz-scrapy.html

2、数据分析

分析内容可见上述Repository的Wiki（https://github.com/younghz/TBBKAnalysis/wiki）。

我也会将其写在以下。

或者直接看上面知乎问题中我写的答案。

工具：ipython & matplotlib。

3、分析内容

分析内容放在了Wiki中。链接：https://github.com/younghz/TBBKAnalysis/wiki。或者直接见以下正文。（注意：假设Wiki中图片无法打开，请使用较高版本号的Chrome浏览器。

）

4、正文

一、案例选择。

如今着手分析的对象是能让你在三个月获得大把钞票的“爆款”。这当然得拿最有代表性的商品当样例，最有代表性就是最火的。

看看什么最火。以下是淘宝指数（http://shu.taobao.com/top/16/search）数据。

图一搜索排行

图二成交排行

非常明显。那么就取商品的搜索量和成交量二者交集——“连衣裙夏”做案例进行分析。

二、案例分析

在淘宝中搜索“连衣裙夏”，首先提取实用数据，这里我基于Scrapy框架实现了一个爬虫，爬取按销量排行的前五页数据（听说前五页是全部商家的梦哦），销量在三千到三万，销量低于三千的款也不够‘爆’吧（我也不清楚，呵呵）。

这里提取每一个宝贝销量、宝贝价格、店铺性质以及店铺名称等分析。

三、数据分析

以下对提取的数据进行分析，分析分为两种：首页和前五页。（以下图表使用ipython基于matplotlib生成）假设说前五页属于‘爆’级别。那么首页就是‘爆爆’了吧。

（1）最关心的当然还是销量

基于上面抓取的数据。分析。

图三前五页销量趋势

图四首页销量趋势

看过了什么感受，这怎么成指数下降趋势啊。即便是爆款，销量差距还是非常悬殊的啊。即使在‘爆爆’级别的首页销量老大和老二都不是一个级别的啊。竞争好激烈不是吗。

我们继续进行局部放大，看看销量在一万以上的是什么情况。

图五销量大于一万趋势

小伙伴。是不是有种要做就做老大的感脚。

（2）看价格

以下是前五页商品的价格曲线。

图六前五页商品价格及平均价格图

当中红色的线是全部商品的平均价格。低于50块。并且价格可分为三个区间:

区间一：50下面。

这部分商品最密集。大部分商品价格集中在这个区域。

区间二：50到100。
这属于第二阶梯。

区间三：100以上，看上去这部分好刺眼啊，总有零星的几个拔出来。
相对照例非常少。

有什么感想，要是你做，把你的东西价位定义在哪个区间呢。继续看下首页的价格数据。

图七首页商品价格走势图

要是感觉这个不够明显，我们还是来看销量高于一万的走势图。

图八销量大于10000商品价格走势图

以下来研究下这些爆款都来自哪里。

（3）卖家地点

来看看这些做爆款的卖家都在哪。地点是不是也为他们提供了一定的优势？

图九卖家地点分布

从高到低各自是——广东、浙江、北京、上海、江苏、山东、湖北、河南、辽宁、江西。

（4）店铺是否是天猫卖家

图十是否是天猫（前五页数据）

图十一是否是天猫（首页数据）

这个比例看起来都差点儿相同。看来也没什么必定的关系。

(5)商品名字

给你举两个： “夏季新款女式连衣裙莫代尔背心长裙波西米亚气质长裙打底裙子” “14夏季新款韩版短袖V领波西米亚连衣裙大码女装沙滩裙子” “夏装新款女连衣裙短袖韩国性感修身显瘦包臀V领大码” 呵呵，想没想好你的叫什么名字了？假设买的是内裤，依照上面的规则应该就叫：“14夏季新款波西米亚修身显瘦包臀韩国气质新版安全防盗内裤”。呵呵。

（6）买家分析

刚才说的都是卖家的，如今看看消费者。

看看关键词喜好度（http://shu.taobao.com/searchindex?spm=0.0.0.0.3Mt2Y2&query=%E8%BF%9E%E8%A1%A3%E8%A3%99%20%E5%A4%8F）对你有没有帮助。

图十二搜索喜好度

第一是黑龙江。辽宁也入围前十了。

本文为younghz原创，文章链接为：http://blog.csdn.net/u012150179/article/details/37306629

时间： 2024-10-04 09:18:35

关于“淘宝爆款”的数据抓取与数据分析的相关文章

2016年商家如何借势淘宝客打造淘宝爆款

如何利用好淘宝客?我们从商家如何借势淘宝客,获取更多流量.销量.潜在用户.如何通过淘宝客打造爆款,打造了爆款后面如何维护等等问题. 一.首先,我们在学会打造淘宝爆款之前,要先掌握流量.销量.转单.潜在客户等这几个问题. 1.流量流量从哪里来?流量肯定不是从天上掉下来的,流量=用户.他们都是淘宝客们一个一个邀请过来,一个一个维护起来的.每一个用户都来之不易,所以对于淘客来说,最痛恨的就是商家做伤害用户的事,譬如把用户拉到自己的CRM群啊,或者是产品品质方面有问题,或者是商家服务态度差等等诸多

谷嫂淘宝同款排除王V7.0 怎么样？效果如何？

根据自己使用和周围朋友使用情况,可以说谷嫂淘宝同款排除王效果很不错的. 首先,排除同款方面,按官网客服教的,成功率基本接近100%,虽然他们说的是90%左右,但做女装的认真按说明操作还是可以基本上做到接近100%成功的.不过据说没有模特的女鞋成功率相对低些. 其次,谷嫂淘宝同款排除王在抢淘宝新品方面功能真的特别强大,周围好多人都很多产品都可以弄多一个月左右的新品标签,这就意味着打造爆款可以省了不少精力和直通车,所以觉得性价比特别高,虽然说软件表面上有点贵,但使用可以帮卖家挣到更多甚至翻倍的钱,所

谷嫂淘宝同款排除王：淘宝小卖家从月收入5千到月收入5万的演变秘密武器

2015年,卖家到处叫苦喊没生意,不少靠刷爆款的卖家分分中招,各论坛可谓哀声遍野,好多卖家都生意变的惨淡了!但其实上,淘宝的买家并没有少,有人没生意了,当然有人就生意好了,只是事实上,大家都是闷声挣大钱而已.所以我们多数看到的是叫苦声和埋怨声,就算那些分享挣到钱的,一般也都是一年前或几年前的事实了,其实部分人也是为了找工作或拉业务才把自己之前的光环业绩暴出来.几乎很少分享现在当时的,毕竟分享出去就容易被别人抢饭碗. 最近负能力文章太多,来给大家弄个正能量的吧!现在跟大家分享的这个案例就是现在正在

R语言XML包的数据抓取

htmlParse 函数 htmlParse加抓HTML页面的函数. url1<-"http://www.caixin.com/"url<-htmlParse(url1,encoding="UTF-8") 但是有的网站会出现报错.例如淘宝,错误信息为: Warning message:XML content does not seem to be XML: 'https://www.taobao.com/' 原因为htmlParse可以抓取http的页面

【RPA实例教学】UIbot——数据抓取功能

UiBot 0.7 版新增加了[数据抓取]功能,这项功能可以方便获取网页中的相似元素,将相似元素的数据采集到数组中,比如各种电商网站(淘宝.京东.拼多多等)的商品分类.商品列表信息(商品名.价格等),或者网页中的各种列表.表格的数据. 本期教学以抓取[京东]网站搜索某个关键字列出的所有商品为例,实现商品列表的数据采集: 准备工作目前数据抓取功能仅支持 Google Chrome 浏览器,在安装 UiBot 时,会自动安装 Google Chrome 浏览器扩展程序,使 UiBot 能够正常操作

大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)

摘抄至http://blog.jobbole.com/46673/ 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如何快速把不规则页面结构化并存储.如何满足越来越多的数据采集还要在有限时间内采集.这篇文章结合我们自身项目经验谈一下. 我们来看一下作为人是怎么获取网页数据的呢? 1.打开浏览器,输入网址url访问页面内容.2.复制页面内容的标题.作者.内容.3.存储到文本文件或者excel. 从技术角度来说整个过程

浅谈数据抓取的几种方法

在下抓数据也小有研究,现分享几个自己研究出来的抓数据的技术,可能会有很多不足的地方,欢迎大家指正补充哈哈! 方法一:直接抓取网页源码优点:速度快.缺点:1,正由于速度快,易被服务器端检测,可能会限制当前ip的抓取.对于这点,可以尝试使用ip代码解决. 2,如果你要抓取的数据,是在网页加载完后,js修改了网页元素,无法抓取. 3,遇到抓取一些大型网站,如果需要抓取如登录后的页面,可能需要破解服务器端帐号加密算法以及各种加密算法,及其考验技术性.适用场景:网页完全静态化,并且你要抓取的数据在

Python 爬虫工程师必学 App数据抓取实战

第1章课程介绍介绍课程目标.通过课程能学习到的内容.学会这些技能能做什么,对公司业务有哪些帮助,对个人有哪些帮助.介绍目前app数据抓取有哪些困难,面临的挑战,本实战课程会利用哪些工具来解决这些问题,以及本实战课程的特点 ... 1-1 python爬虫工程师必备技能--App数据抓取实战课程导学第2章 windows下搭建开发环境介绍项目开发需要安装的开发软件,讲解了安卓模拟器对比以及夜神安卓模拟器安装.介绍.简单使用和Genymotion安卓模拟器简单分析介绍App应用抓包工具对比以及f

ngrep环回接口数据抓取方法，使用-d lo参数

ngrep环回接口数据抓取方法,使用-d lo参数,注意顺序: ngrep -W byline -d lo port 80