hadoop实例-网站用户行为分析

一、数据集

网站用户购物行为数据集2030万条，包括raw_user.csv(2000万条)和small_user.csv(30万条，适合新手)

字段说明：

user_id 用户编号，item_id 商品编号，behavior_type 用户操作类型：1(浏览)、2(收藏)、3(加入购物车)、4(购买)

user_geohash 用户地理位置哈希值，在预处理中将其转化为province省份、item_category商品分类，time 用户操作时间

二、实验任务

安装Linux操作系统
安装关系型数据库MySQL
安装大数据处理框架Hadoop
安装列族数据库HBase
安装数据仓库Hive
安装Sqoop
安装R
安装Eclipse
对文本文件形式的原始数据集进行预处理
把文本文件的数据集导入到数据仓库Hive中
对数据仓库Hive中的数据进行查询分析
使用Sqoop将数据从Hive导入MySQL
使用Sqoop将数据从MySQL导入HBase
使用HBase Java API把数据从本地导入到HBase中
使用R对MySQL中的数据进行可视化分析

三、实验步骤

（一）对csv进行预处理

1.去除csv文件的表头

cd ~/下载sed  -i ‘1d‘ raw_user.csv  # 删除第一行sed  -i ‘1d‘ small_user.csv head -5 raw_user.csv # 查看前5行内容head -g small-user.csv

2.将user_geohash转化为province，并将文件格式转化为txt

具体转化细节不说明，本文注重整个分析过程，详细内容参考林子雨老师的博客。

转化成功后，在该目录通过pre_deal.sh脚本加载small_user.csv生成user_table.txt文件，使用tree查看该目录结构:

Hive是基于Hadoop的数据仓库，在将user_table中的数据导入的数据仓库之前，需要先把user_table.txt文件上传到HDFS中。然后再Hive中创建外部表，完成数据的导入。

启动HDFS：由于笔者在安装hadoop时已完成了环境变量的配置，现在在任意目录执行下面的语句开启hadoop：

将user_table.txt文件上传到HDFS中

在HDFS中查看该文件的前10行：

（二）将HDFS中的文件导入到Hive数据仓库中

1.启动mysql数据库

mysql用于保存Hive的元数据(在安装Hive时需要配置)，因此需先开启mysql服务

2.启动hive，启动成功后如下图所示

3.创建数据库，并建立外部表，将HDFS中/bigdatacase/dataset目录下的文件作为该外部表的内容

hive> create database dblab;hive> use dblab;hive> CREATE EXTERNAL TABLE dblab.bigdata_user(id INT,uid STRING,item_id STRING,behavior_type INT,item_category STRING,visit_date DATE,province STRING) COMMENT ‘Welcome to xmu dblab!‘ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t‘ STORED AS TEXTFILE LOCATION ‘/bigdatacase/dataset‘;

4.使用Hive命令进行查询

原文地址：https://www.cnblogs.com/2sheep2simple/p/10729415.html

时间： 2024-10-20 19:46:17

hadoop实例-网站用户行为分析的相关文章

JavaWeb-Servlet技术的监听器-解析与实例-网站在线用户信息与网页点击量

转载请注明出处: http://blog.csdn.net/qq_26525215 本文源自[大学之旅_谙忆的博客] 在Web项目中,我们对下面这几个监听器必须熟练的使用,它们的作用真的很大.熟练的使用后,可以使我们少绕弯路,少写很多代码. 事件源监听对像的创建和销毁监听对像上属性的添加和删除 HttpSession HttpSessionListener HttpSessionAttributeListener - HttpSessionEvent ServletRequest Servl

Hadoop项目实战－用户行为分析之分析与设计

1.概述本课程的视频教程地址:<用户行为分析之分析与设计> 下面开始本教程的学习,本教程以用户行为分析案例为基础,带着大家对项目的各个指标做详细的分析,对项目的整体设计做合理的规划,让大家能通过本课程掌握Hadoop项目的分析与设计.该课程主要包含以下课时: 他们分别是:项目整体分析,项目指标与数据源分析以及项目整体设计.如下图所示: 首先我们来学习第一课时:<项目整体分析>. 2.内容 2.1 项目整体分析本课时简述分析一个项目产生的背景,以及该项目能给企业带来那些良好的结果

Hadoop项目实战－用户行为分析之应用概述（三）

1.概述本课程的视频教程地址:<项目工程准备> 如果本教程能帮助到您,希望您能点击进去观看一下,而且现在注册成为极客学院的会员,验证手机号码和邮箱号码会赠送三天的会员时间,手机端首次也可以领取五天的会员时间哦(即使是购买年会员目前也仅仅是年费260),成为极客学院学习会员可以无限制的下载和观看所有的学院网站的视频,谢谢您的支持! 本节给大家分享的主题如下图所示: 下面我开始为大家分享今天的第三节的内容——<项目工程准备>,接下来开始分享今天的内容. 2.内容从本节开始,我们将进

【收集和分析】网站用户行为数据收集和分析方法

为改善网站的可用性, 一般采用可用性工程方法, 其核心是以用户为中心的设计方法论(UCD).综合介绍了目前国内外对于用户行为数据收集和分析方法所进行的研究, 各种方法的特点, 并介绍一些利用相应方法所开发出的工具实例, 使得建设的网站更加符合用户的需要, 以保障用户与网站之间沟通的顺畅. 随着In ternet 的不断发展, 各种各样的网站如雨后春笋般成倍增长, 各个商业网站之间的竞争越来越激烈, 随之而来的是, 网站的建设不可避免的出现了很多问题.从最近一次国外对15 个大型网站进行统计分析表

Hadoop项目实战－用户行为分析之应用概述（一）

1.概述本课程的视频教程地址:<Hadoop 回顾> 如果本教程能帮助到您,希望您能点击进去观看一下,而且现在注册成为极客学院的会员,验证手机号码和邮箱号码会赠送三天的会员时间,手机端首次也可以领取五天的会员时间哦(即使是购买年会员目前也仅仅是年费260),成为极客学院学习会员可以无限制的下载和观看所有的学院网站的视频,谢谢您的支持! 好的,下面就开始本篇教程的内容分享,本篇教程我为大家介绍我们要做一个什么样的Hadoop项目,并且对Hadoop项目的基本特点和其中的难点做有针对性的剖析,完

打造基于hadoop的网站日志分析系统（5）之spark在日志分析系统里的简单应用

1.下载spark和运行 wget http://apache.fayea.com/apache-mirror/spark/spark-1.0.0/spark-1.0.0-bin-hadoop2.tgz 我这里下载的是1.0.0版,由于我们只是测试spark的用法所以不需要配置spark集群,只需把下好的文件解压,进入bin/文件夹. spark支持scala,java和python. scala和java输入命令:./spark-shell python 输入命令 ./pyspark 进入控制

Hadoop项目实战－用户行为分析之编码实践

1.概述本课程的视频教程地址:<用户行为分析之编码实践> 本课程以用户行为分析案例为基础,带着大家去完成对各个KPI的编码工作,以及应用调度工作,让大家通过本课程掌握Hadoop项目的编码.调度流程.下面我们来看看本课程有哪些课时,如下图所示: 首先,我们来学习第一课时:<Hadoop项目基础代码>. 2.内容 2.1 Hadoop项目基础代码本课时介绍编写Hadoop基础代码及脚本,在前面搭建好的Hadoop项目工程上, 完成项目的基本代码的编写,以及一些注意事项,为编写核心

2017.11.17——作业四用户体验分析：以 “师路南通网站” 为例

作业四.用户体验分析:以 "师路南通网站" 为例作业目标:针对师路南通 ,开展UX分析,基于实例分析,体会用户体验设计的 7 条准则. 首先是"师路南通"的简单页面介绍师路南通功能列表: 在页面的首页可以看到"师路南通"网页的一些功能板块有哪些,详情点击就可以看到,首页只罗列了部分重点,例如"近期研修","经典研修"等等接下来是我觉得"师路南通" 在用户体验设计方面让我觉得满意和不

作业4：用户体验分析——以 “师路南通网站” 为例

一.作业目标基于实例分析,体会用户体验设计的 7 条准则. 二.作业要求针对师路南通 ,开展UX分析.PS:对比另外2个学习网站:1. UMU学习平台 :2. 学生安全教育平台基于7 条UX评价准则,分析"师路南通" 在用户体验设计方面让你觉得满意的地方(不少于2点),请陈述理由. 同样,分析"师路南通" 在用户体验设计方面让你觉得最不满意的地方(不少于2点),请陈述理由. 回答上述问题时,附上截图. 三.分析 (一)欢迎界面 1.师路南通点击进入"