项目正式开始时间:2015.10.15.
随笔内容:本次项目的主题是基于Spark的ML。对于ML的学习有大概半年了,正好在网上关注到了由上海交通大学所主办的这个飞谷云的大数据项目,我所报名的这期已经是飞谷云的第六期了,在网上和群里了解了一段时间后大算报名参与一次,毕竟之前没有参与过真正的项目开发,也刚好趁着在学习ML的这个时间通过项目把理论和实践都加强。在这篇随笔中,我打算把这次项目的每个过程都写进来,一是为了给正在进行的项目提供一个全程记录;二是给自己一个留念,毕竟是自己独立完成的一个ML方面的项目,对于今后的学习也能起到帮助作用。
飞谷云六期第三组项目需求说明(我选择的内容):
招聘信息挖掘:
1)通过公司描述、招聘岗位、薪水等对公司评级;2)通过招聘岗位描述对岗位分类,找出岗位描述关键词。
项目交付物
1. 代码(python) 2. 成果展示(可视化最好)
希望在项目截止的时候能达到项目组的要求。对于这次项目,我主要还是以学习为主,通过对于数据的分析掌握 数据整理、数据清洗、Spark、ML等方面的知识。
正式的项目经过:
一.登陆服务器:飞谷云测试服务器上的数据存储情况:
·Mac连接服务器步骤(到这里才真正认识到Mac之于开发的优势):
Terminal:
$ssh [email protected]
$password
$ssh 222.249.249.152
$password
·查看服务器上HDFS中的表数据:
$hadoop fs -ls
$hadoop fs -ls /user/hive/warehouse/feigu3.db 查看刚才 feigu3 数据中的所有表
$hadoop fs -cat /user/hive/warehouse/feigu3.db/stg_job/pt=20151014/liepin1.dat 打开feigu3数据中的stg_job表,查看其中任意一个文件
上图为在服务器端查看到的抓取的招聘网站的数据信息。
到2015.10.19为止计划的项目流程进度:
·在Spark中所引用服务器上所用的表数据(使用Python)
·把项目需要的表数据经过清洗、规整后整合为一个数据文件(包含公司描述、招聘职位、薪水等)
·提取有用的特征条件W
·给ML(聚类等)算法喂入特征条件,输出最后结果
预计每周完成一个计划点。