闲扯大数据

转自:闲扯大数据

“大数据”这个概念最近被人扯的有点烂了,一刹那间似乎人人都在说数据,但真正能说明白的没有几颗,今天我们也闲扯一下“大数据”。

先讲几个故事:

1、上周我在上海出差的时候,一个老同学火急火燎的找我问:“马应龙的眼霜在淘宝上销量怎么样?评价好不好?我打算买点他家的股票……” 我上@淘宝指数 查询之后告诉他销量在稳步提升,好评如潮,于是她放心的去加仓了……

2、一家生产泳装的企业在全国铺货,在沿海花了很大力气,但淘宝网告诉他,网购比基尼最火爆的地区在新疆,没有大海的新疆……

3、淘宝数据平台显示,购买最多的文胸尺码为B罩杯。前9位中,B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。款式以四分之三罩杯蕾丝图案最受欢迎。另外还能有趣的看到各个省市的胸部大小排名

这些故事中,数据都对商业行为产生了明显的影响。这一期的@天下网商 杂志的封面故事就是《2013 电商数据化生存》,下面摘录部分观点:

1、目前电子商务的发展已经达到了临界点,随着融资遇冷、价格战愈演愈烈、广告营销的成本逐年上升,电商企业明显感觉到力不从心,在这种微利的情况下,势必需要电商企业回归商业的本质,通过精细化的运营更好地生存。

2、相比较传统商业,电商企业的消费者浏览路径、购买记录、访问时间等等,都有迹可循,获取数据更为方便。在此基础上,电商企业更重视数据,希望通过数据提升营销效果、塑造品牌影响力、推动企业流程的优化。

3、电商企业如何把握大数据?首先要明白谁有大数据,淘宝店铺自己的数据还算不上大数据,因为他们的视角往往停留在本身的店铺内,当在他们的店铺中没有出现某种人,便认为某种人不存在。但淘宝的视角会更高,更容易看到全局(在数据量比较少的时候,往往凭经验、拍脑袋的决策效率更高)。淘宝的原创女装品牌橡菲,会每天花费500~1000元做情报挖掘。他们有专门的情报收集人员,根据数据魔方、量子恒道、CRM系统分析数据,再把这些信息结合辅助最基本的经营决策。

那怎么获取淘宝的海量数据呢?除了上面说过的数据魔方、量子恒道、淘宝指数这些数据产品以外,“@聚石塔”是一个“安全的商业数据环境”,这里面能够获取更加贴近企业经营的数据。下面讲几个聚石塔里面的数据应用场景:

1、双十一的时候,卖家们忙疯了,他们后台订单处理的软件也忙疯了,这些软件是由ISV或商家自己开发的,部署在不同的软硬件环境中,在极限的状况下,各种意外的状况都有可能发生,而那些把软件部署在聚石塔里的商家,享受着和淘宝一样的软硬件支持,他们像访问本地数据一样的应用淘宝的订单数据。

2、双十一过后,我们问一些商家,“你赚了多少?”(或者你亏了多少?^_^)他们都说“不知道”,为什么不知道呢?他们买的广告、发的积分、进货的花销、支付宝的进账、银行的手续费……各种进出的财务数据都不在一块,还真头大。而这些数据,以后会在聚石塔里统一开放,各种计算方式都有。

3、来了一个顾客,你赶紧问“亲,需要什么宝贝?”。其实淘宝网知道来的这个亲是屌丝还是高富帅,是南方人还是北方人,是刚结婚还是刚生娃,他刚逛了10个店铺还是就你一家……这些信息,对你的精准营销非常有帮助。

4、你的货卖完了,接下来买什么会更畅销呢?淘宝告诉你现在流行的款式、面料、价位、目标人群……是不是很爽?

5、……无限的数据,创造无限的可能

闲扯大数据,布布扣,bubuko.com

时间: 2024-12-25 10:29:16

闲扯大数据的相关文章

闲扯大数据2

转自:闲扯大数据-Ⅱ 上一篇说过大数据的用处,如分析顾客的各种属性.分析各种财务数据.精细化管理进销存等,但只是把数据拿过来做一次使用是远远不够的. 有人拿这个故事来说明大数据的应用——美国一个大型超市,有一天收到一个怒气冲冲的老爸的投诉,说他女儿还在上高中,居然收到超市的孕婴用品的优惠券,简直是太离谱了.超市经理赶紧道歉,但两周之后,这位老爸郁闷的发现女儿真的怀孕了.原来是超市新上了一个客户分析系统,根据用户的购物数据和购物路径(例如购买了维生素.无香型的乳液.叶酸之类,在婴幼儿用品区域逛的时

关于MATLAB处理大数据坐标文件2017620

暑假已至,接下来组内成员将会各回各家,各找各妈,这肯定是对本次大数据比赛是很不利的. 接下来我会把任务分配给组员,当然任务会比起初的时候轻一点,因为我认为本次比赛的目的并不是我要求组员做什么,而是我的组员要求自己做什么! 我们现在主要接触的两门语言: MATLAB语言在数据处理方面很牛,它的画图功能也是杠杠的,尤其是3D画图 Python语言是一门近几年很火的语言,学好它对自己肯定只有益处,它的出生很晚,但是短短十多年,它已经稳居计算机语言前三名.尤其是现在的大数据时代,它的代码不仅简单易懂,而

【IT十八掌大数据】学习笔记

hive简介: -------------------- 0.big data的特点:4 Volumn variety velocity value 1.介绍 数据仓库    //online analyze process,在线分析处理. 用来查询和管理位于分布式存储设备上的大型数据集. Hive提供了一种类SQL语言--HiveQL(HQL)进行查询分析. HiveQL可进行插件式扩展. 擅长处理结构化数据.非结构化的数据没办法创建对应的模式. 位于hadoop之上,重点在于对大数据进行分析

Pandas中如何处理大数据?

近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享,希望对大家学习pandas有所帮助吧. 大文本数据的读写 有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后

一站式大数据敏捷分析平台

OpenFEA是一站式大数据敏捷分析系统,融合了内存计算.集群运算.机器学习.交互分析.可视化分析等技术,涵盖数据收集.数据探索.构建模型.模型发布等功能,分析性能卓越,使用简便,无需复杂编程即可快速实现大数据分析,助力数据分析师激扬数据,塑造业务标杆.          数据收集         OpenFEA能够融合更多类型的数据来进行运算,支持关系型数据源. Hadoop数据源.数据文件.第三方数据源. 支持数据源与接口/格式的双向自定义机制.表示各种复杂结构或LOAD和STORE各类数据

SPARK大数据计算BUG处理:

大数据计算BUG处理: 程序修改前资源情况: Driver : 1台 Worker : 2台 程序提交申请内存资源 : 1G内存 内存分配情况 : 1. 20%用于程序运行 2. 20%用于Shuffle 3. 60%用于RDD缓存 单条TweetBean大小 : 3k 1. 内存溢出 原因:因为程序会把所有的TweetBean查询出来并且合并(union),该操作在内存中进行.则某个campaign数据量较大时,如500W数据,则500W*10k=50G,超出内存限制. 解决方法: 先按数据量

联合国“全球脉动”计划 《大数据开发:机遇与挑战》

联合国"全球脉动"计划发布<大数据开发:机遇与挑战>2012 年 5 月 29 日,联合国"全球脉动"( Global Pulse)计划发布<大数据开发:机遇与挑战>报告,阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了策略建议.1. 引言技术创新和数字设备的普及带来了"数据的产业革命".对日益扩大的数字数据的分析将揭示关于集体行为的潜在联系,并有可能改进决策方式.大数

大数据vs计算机

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人.另外可以用这本书做参考<Data Mining : Concepts and Techniques>.第二本比较厚,也多了一些数据仓库方面的知识.如果对算法比较喜欢,可以再阅读<Introduction to Machine Learning>.当然,还

SparkRDD解密(DT大数据梦工厂)

第一阶段,彻底精通Spark 第二阶段,从0起步,操作项目 Hadoop是大数据的基础设施,存储等等 Spark是计算核心所在 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 不掌握RDD的人,不可能成为Spark的高手 绝对精通RDD,解决问题的能力大大提高 各种框架底层封装的都是RDD,RDD提供了通用框架 RDD是Spark的通用抽象基石 顶级SPark高手, 1.能解决问题.性能调优: 2.Spark高手拿Spark过来就是修改的 ==========基于工作集的应