基础数据结构
- user_visit_action 点击流数据 (hive表)
date //日期:代表用户点击行为是在哪一天发生 user_id //代表这个点击行为是哪一个用户执行的 session_id //唯一标识了某个用户的一个访问session page_id //页面的id,点击品类,进入某个页面 action_name //这个点击行为发生的时间点 search_keyword //搜索的关键词 click_category_id //网站首页点击了某个品类 click_product_id //网站列表页点击了某个商品 order_category_ids //代表了将某些商品加入了购物车,然后一次性的对商品下了单,某次下单行为中,有哪些商品品类 order_product_ids //某次下单行为中,有哪些商品 pay_category_ids //一次支付行为中对应了哪些品类 pay_product_ids //支付行为中,对应了哪些具体的商品
- user_info 用户信息表(hive表)
user_id //用户的唯一标识 username //用户的登录名 name //用户名 age //年龄 professinal //职业 city //城市
- task表(mysql表)
task_id //主键 task_name //任务名称 create_time //创建时间 start_time //开始运行的时间 finish_time //结束运行的时间 task_type //任务类型 task_status //任务状态,对应spark作业运行的状态 task_param //用来使用json的格式来封装用户提交的任务的特殊筛选参数
- 交互流程
1.j2ee平台的使用者,向平台提交任务(包含任务参数),并将任务插入到mysql表中的task表
2.Runtime,Process等API去执行一个封装了spark-submit命令的linux的shell脚本
3.
时间: 2024-10-14 02:54:44