1 数据概况
本数据为上牌汽车的销售数据,分为乘用车辆和商用车辆。数据包含销售相关数据与汽车具体参数。数据项包括:时间、销售地点、邮政编码、车辆类型、车辆型号、制造厂商名称、排量、油耗、功率、发动机型号、燃料种类、车外廓长宽高、轴距、前后车轮、轮胎规格、轮胎数、载客数、所有权、购买人相关信息等。
2 数据背景介绍
汽车销售(Atuo Sales)是消费者支出的重要组成成分,同时能很好的反映出消费者对经济前景的信心。通常,汽车销售情况我们了解一个国家经济循环强弱情况的第一手资料,早于其他个人消费数据的公布。因此,汽车销售为随后的零售额和个人消费支出提供了很好的预示作用,汽车消费额占零售额的25%和整个销售总额的8%。另外,汽车销售可作为预示经济衰退和复苏的早期信号。
3 基本操作(使用HiveQL实现)
3.1创建数据库
Create database cars;
3.2创建外部表
CREATE EXTERNAL TABLE cars(
province STRING,
month INT,
city STRING,
county STRING,
year INT,
cartype STRING,
productor STRING,
brand STRING,
mold STRING,
owner STRING,
nature STRING,
number INT,
ftype STRING,
outv INT,
power DOUBLE,
fuel STRING,
length INT,
width INT,
height INT,
xlength INT,
xwidth INT,
xheight INT,
count INT,
base INT,
front INT,
norm STRING,
tnumber INT,
total INT,
curb INT,
hcurb INT,
passenger STRING,
zhcurb INT,
business STRING,
dtype STRING,
fmold STRING,
fbusiness STRING,
name STRING,
age INT,
sex STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t‘;
3.3导入数据
Load data local inpath ‘/usr/local/hivedata/cars.txt’into table cars;
3.4查询结果前十条
Select * from cars limit 10;
4 需求分析(使用HiveQL实现):
4.1汽车行业市场分析:
1、统计乘用车辆和商用车辆的数量(即非营运和营运车辆)
select nature ,count(*) from cars group by nature where nature is not null;
2、统计山西省2013年每个月的汽车销售数量的比例
select month , m.c/n.d (select month ,count(*) from cars where year=2013 group by month) m,(select count(*) d from cars) n;
4.2 用户数据市场分析:
1 统计买车的男女比例
select m.c/n.d from (select sex ,count(*) c from cars group by sex) m,(select count(*) d from cars) n;
2 统计的车的所有权、型号和类型
select owner,cartype,mold from cars ;
4.3 不同车型销售统计分析:
1 统计不同类型车在一个月(对一段时间:如每个月或每年)的总销售量
select cartype , count(*) from cars where month=1 group by cartype ;
2 通过不同类型(品牌)车销售情况,来统计发动机型号和燃料种类
select brand,ftype,fuel from cars group by brand,ftype,furl;
5 针对某一品牌的竞争分析:
1 统计五菱每一个月的销售量
select month , count(*) from cars where brand=’五菱’group by month;
原文地址:https://www.cnblogs.com/beiyi888/p/9634485.html