电商交易数据分析

1.分析目的:根据过往电商成交数据进行数据分析发现规律和问题从而指导业务

2.数据

导入库

导入数据

加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布

加载device_type

3.数据清洗

orderId

orderId在一个系统里是唯一值

先看下有没有重复值

如果有重复值一般最后处理,因为其他的列可能会影响到删除哪一条重复的记录

先处理其他的列

userId

userId只要从上面的describe和info看下值是不是在正常范围就行

对于订单数据,一个用户有可能有多个订单,重复值是合理的

productId

productId最小值是0,先来看下值为0的记录数量

177条记录,数量不多,可能是因为商品的上架下架引起的,处理完其他值的时候把这些记录删掉

cityId

cityId类似于userId,值都在正常范围,不需要处理

price没有空值,且都大于0,注意单位是分,把它变成元

payMoney

payMoney有负值,下单不可能是负值,所以这里对于负值的记录要删掉

删除负值的记录

单位变成元

channelId

channelId根据info的结果,有些null 的数据,可能是短的bug等原因,在下单的时候没有传channelId字段

数据量大的时候,删掉少量的null记录不会影响统计结果,这里直接删除

deviceType的取值可以看device_type.txt文件,没有问题,不需要处理

createTime和payTime都没有null,不过要统计2016年的数据,所以要把非2016年的删掉

回过头来把orderId重复的记录删掉

把productId为0的也删除掉

数据清洗完毕,开始分析

4.数据处理和分析

先看下数据的总体情况

总订单数,总下单用户,总销售额,有流水的商品数

分析数据可以从两方面开始考虑,一个是维度,一个是指标,维度可以看做x轴,指标可以看做y轴,用一个维度可以分析多个指标,同一个维度也可以

做降维升维

按照商品的productId

先看下商品销量的前十和后十个

销售额

看下销量和销售额最后100个的交集,如果销量和销售额都不行,这些商品需要看看是不是要优化或者下架

price

对于价格,可以看下所有商品价格的分布,这样可以知道什么价格的商品卖的最好

很多价格区间没有商品,如果有竞争对手的数据,可以看看是否需要补商品填充

对应的价格

下单时间分析

按小时的下单量分布,可以按时间做推广

中午12,13,14点的下单比较多,应该是午休的时候,然后是晚上20点左右

按照星期来看,周六下单最多,其次是周五周日

下单后多久支付

绝大部分都在十几分钟之内支付完成,说明用户基本很少犹豫,购买的目的性很强

月成交额

原文地址:https://www.cnblogs.com/daisyxxx/p/12683760.html

时间: 2024-08-29 23:51:33

电商交易数据分析的相关文章

京东如何打造K8s全球最大集群支撑万亿电商交易

在过去一年里,Kubernetes以其架构简洁性和灵活性,流行度持续快速上升,我们有理由相信在不远的未来,Kubernetes将成为通用的基础设施标准.而京东早在2016年年底上线了京东新一代容器引擎平台JDOS2.0,成功从Openstack切换到JDOS2.0的Kubernetes技术栈,打造了完整高效的PaaS平台. 6月28日京东基础架构部技术总监.集群技术部负责人鲍永成受邀出席了Rancher Labs举办的Container Day 2018容器技术大会,并做了题为<京东如何打造ku

电商交易背景知识合集第一季

郑昀编纂 基于网络资料 创建于2015/9/7 最后更新于2015/9/7 特别感谢知乎梁川.天顺等知乎网友的精彩答案 本文档适用人员:交易领域的产品研发人员 提纲: 银联 一些错综复杂的关系 银联是什么 银联商务是什么 快捷支付绕过银联了吗 能通过卡号判断是对公账户或对私账户吗 快捷支付 为什么要推快捷支付 POS POS签单上的各种号码 信用卡刷卡后都发生了什么 第三方支付公司 为什么需要有备付金 直联网关和间联网关 何谓银企直连 支付宝是怎么对账的 我们作为商户如何接入 预付费卡牌照与第三

转: 电商交易中支付相关知识

from: http://www.cnblogs.com/zhengyun_ustc/p/paybg.html 评点: 实在是长见识, 全干货!!!谢谢原作者 郑昀编纂 基于网络资料 创建于2015/9/7 最后更新于2015/9/7 特别感谢知乎梁川.天顺等知乎网友的精彩答案 关键词:在线支付,POS,第三方支付,清算,银企直连,快捷支付,对公对私,支付宝,对账,App 本文档适用人员:交易领域的产品研发人员 提纲: 银联 一些错综复杂的关系 银联是什么 银联商务是什么 快捷支付绕过银联了吗

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

第0章 预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD.DataFrame 与 DataSet0.3.2 DataSet 与 RDD 互操作0.3.3 RDD.DataFrame 与 DataSet 之间的转换0.3.4 用户自定义聚合函数(UDAF)0.3.5 开窗函数0.4 Spark Streaming0.4.1 Dst

区块链实现简单的电商交易(以太坊)

一.流程如下:1.买家下单2.卖家接单3.买家付押金4.卖家付押金5.卖家发出货物6.运输方甲收到货物7.运输方甲送到货物8.运输方乙收到货物9.运输方乙送到货物10.买家收到货物 二.将以上规则写入编译合约sol文件 /* This is a simple showcase smart contract example for trade finance / supply chain interactions. It could be improved in several ways: - a

上海远丰:大数据时代 电商如何做好运营数据分析

2015年深圳互联网领袖论坛上,马云阐述了“DT时代”概念,提出我们已经从IT时代进入了数据时代,数据让一切变得透明.直观.大数据时代,依托于电子商务快速发展,数据分析已成为企业在电商混战中脱颖而出的关键.但很多企业意识到网站数据分析的重要性,往往却不知道怎么办. 互联网时代,用户习惯正在发生变革,只有充分了解用户才能打造符合用户预期的产品.电子商务相对于传统零售业来说,最大的优势在于一切都可以通过数据化来监控和改进.通过数据可以看到用户从哪里来.如何组织产品可以实现很好的转化率.投放广告的效率

电商实时交易风控系统

1.课程名称 2.课程目标 1.了解电子商务交易的风险点 2.了解电子商务交易中风险点的处理策略 3.利用Storm技术开发基于规则判定的风控系统 4.掌握企业中风控系统的一般架构和业务流程 3.背景知识 3.1.信用卡的交易风险及常见策略 3.1.1.用户逾期风险控制 用户主动.被动对正常消费的金额产生逾期 通过滞纳金进行处理 3.1.2.虚假交易风险控制 3.1.2.1.配合商家进行虚假交易 通过中介公司.皮包公司,在该机构虚假下单,扣除一些的返点. 3.1.2.2.找朋友刷单刷卡 朋友较大

互联网巨头跑步入场 加速布局跨境电商

巨大的国内需求和日益宽松的政策环境,使跨境电商市场日益火爆.据商务部公布的全球贸易格局报告预测,2016年我国跨境电商进出口额将增长至6.5万亿元,年增速将超30%.面对如此巨大的市场诱惑,一向嗅觉敏锐的互联网企业已跑步入场.目前,包括阿里巴巴.京东.亚马逊.唯品会等互联网企业均已纷纷上线跨境电商业务,并针对与之息息相关的跨境物流等难点问题,展开积极布局. 市场前景诱人 毫无疑问,诱人的市场前景是跨境电商市场日益火爆的主要原因.据电子商务研究机构中国电子商务研究中心的数据,2014年我国跨境电商

跨境电商再现变局,有钱的加速布局,缺钱的追求盈利

如今资本市场和舆论媒体的注意力都集中到了共享经济上,对跨境电商的兴趣和关注度都已降温,导致不少跨境电商公司因没有新一轮资金进入而不得不向市场妥协,自去年408"政策变局"后,如今的跨境电商市场出现了明显的"市场变局"信号. 政策变局:408税改新政曾让跨境电商行业头疼不已,却成就了网易考拉的平稳成长 昨日,网易发布了17年Q1财报,其中电商业务表现依旧抢眼,净收入为24.6亿元人民币,同比增加63.2%,仍保持较快的增速.网易考拉的成长以得到了资本市场的关注,在Q1