飞谷云六期第三组——基于Spark的机器学习

项目正式开始时间:2015.10.15.

  随笔内容:本次项目的主题是基于Spark的ML。对于ML的学习有大概半年了,正好在网上关注到了由上海交通大学所主办的这个飞谷云的大数据项目,我所报名的这期已经是飞谷云的第六期了,在网上和群里了解了一段时间后大算报名参与一次,毕竟之前没有参与过真正的项目开发,也刚好趁着在学习ML的这个时间通过项目把理论和实践都加强。在这篇随笔中,我打算把这次项目的每个过程都写进来,一是为了给正在进行的项目提供一个全程记录;二是给自己一个留念,毕竟是自己独立完成的一个ML方面的项目,对于今后的学习也能起到帮助作用。

飞谷云六期第三组项目需求说明(我选择的内容):

招聘信息挖掘:

1)通过公司描述、招聘岗位、薪水等对公司评级;2)通过招聘岗位描述对岗位分类,找出岗位描述关键词。

项目交付物

1. 代码(python) 2. 成果展示(可视化最好) 

希望在项目截止的时候能达到项目组的要求。对于这次项目,我主要还是以学习为主,通过对于数据的分析掌握 数据整理、数据清洗、Spark、ML等方面的知识。

正式的项目经过:

一.登陆服务器:飞谷云测试服务器上的数据存储情况:

·Mac连接服务器步骤(到这里才真正认识到Mac之于开发的优势):

Terminal:

$ssh [email protected]

$password

$ssh 222.249.249.152

$password

·查看服务器上HDFS中的表数据:

$hadoop fs -ls

$hadoop fs -ls /user/hive/warehouse/feigu3.db 查看刚才 feigu3 数据中的所有表

$hadoop fs -cat /user/hive/warehouse/feigu3.db/stg_job/pt=20151014/liepin1.dat 打开feigu3数据中的stg_job表,查看其中任意一个文件

上图为在服务器端查看到的抓取的招聘网站的数据信息。

2015.10.19为止计划的项目流程进度:

·在Spark中所引用服务器上所用的表数据(使用Python)

·把项目需要的表数据经过清洗、规整后整合为一个数据文件(包含公司描述、招聘职位、薪水等)

·提取有用的特征条件W

·给ML(聚类等)算法喂入特征条件,输出最后结果

预计每周完成一个计划点。

时间: 2024-11-23 15:43:59

飞谷云六期第三组——基于Spark的机器学习的相关文章

【飞谷六期】爬虫项目1

报名了飞谷六期的爬虫项目,但是自己相关的基础还是较弱,每天都有种无所事事的感觉.决定还是记录一下每天学习到的知识,自己看看也知道学习了些什么. 1.XShell连接阿里云,Xftp传输文件 2.把例子的文件拷贝出来后,link文件夹中的代码如图: 开始看到这些文件,我想说什么鬼.然后看了一下 Scrapy入门,得知,这些文件是在新建scrapy项目后自动生成的.如果建立一个名叫tutorial的新项目,可以输入命令(我都是用的飞谷云提供的环境,linux的) scrapy startprojec

独家讲解分析《组三组六 必中技巧》助你快速掌握

组三组六 必中技巧筘[5926656]胜率95%,已助上千人成功翻盘,他都是有问必答的. 号码直落定位组三,对应看百位号码,只要上下两期出现相同的号码,形成同位直落,俗称两期百位“对子码”结构,第三期的开jiang号码结构形态就可以重点考虑组三. 例如:50期jiang号为570,51期jiang号为543,百位号码5出现了直落,52期开出组三号码933.当然这种情形不是绝对的,有时会出现特殊形态的号码组合,如全大.全小.全质.全合等虽然出现了号码直落现象,但在之后出现的不是组三,而是全质数组合

实力玩家分享《后三组六杀号心得》技巧分析

后三组六杀2码公式 ┿导师Q[8285655]精准一对一指导, 长久盈利轻松賸率95%,已助上千人成功翻盘,欢迎增加,沟通交流!我分享这些不为别的,只为像我一样的人能早日翻盘! 后三直选和定位胆从根本上讲形态是一致的,后三为000-999中选取单一数字进行游戏,定位胆为10个数中选取单一数字.两者的不同在于,在保证同样的中jiang概率下后三可人为操作性大于定位胆.举个例子:保证投注中奖概率为百分之五十的情况下,后三需要投注500个号码,假使我们选择000-499此500个号码,定位胆我们选择0

小非大人说?华为云——第六期?虚拟私有云VPC

小非大人说?华为云--第六期?虚拟私有云VPC小非大人:工程师小闲大人:售前小年大人:老板 小非大人:计算.存储.网络,基础资源(IAAS的三大件),计算和存储前几期讲过,今天我们来说下华为云的虚拟私有网络,简称VPC今天的拓扑还算正式 网络ACL1:禁止测试环境访问生产环境 网络ACL2:禁止生产环境访问测试环境 第一部分-配置选购(VPC没啥选购的,规划好子网即可)第二部分-实践场景(搭建多个子网,根据应用场景配置ACL规则)第三部分-价格说明(本身不收费) 第六期 华为云-虚拟私有云VPC

JEECG开源社区第六期架构培训班开始报名

JEECG开源社区架构师培训班 ******************************************* 教学特点 学原理,写架构,非学框架,用框架 ******************************************* 教学方法 老师带着你学习编程,每个技术课题,会有对应的视频和作业. 同学以自学为主,遇到问题找老师解答. 每个课题,需交作业,作业完成既可进行下一课题学习! ******************************************* 学

JEECG社区第六期架构培训班报名

JEECG开源社区架构师培训班 ******************************************* 教学特点 学原理,写架构,非学框架,用框架 ******************************************* 教学方法 老师带着你学习编程,每个技术课题,会有对应的视频和作业. 同学以自学为主,遇到问题找老师解答. 每个课题,需交作业,作业完成既可进行下一课题学习! ******************************************* 学

评论第三组

团队博客每天发布站立会议信息(配站立会议照片).任务进度.任务看板(图).燃尽图(图).个人博客发表每天个人工作总结昨天干了什么:今天准备干什么:遇到困难没有: 检查第三组:发布站立会议信息(配站立会议照片).任务进度.任务看板(图).燃尽图(图).都已完成要求.只是连续发表七天 组员:张学晴,个人冲刺10天,发表完全,表明任务,进行总结,表明困难 牛俊燕:个人冲刺7天,发表完全,表明任务,进行总结,表明困难 谷伟华:个人冲刺10天,发表完全,表明任务,进行总结,表明困难 尤凯莉:个人冲刺10天

计算两个集合的差集——第六期 Power8 算法挑战赛

第六期Power8大赛 1.1 比赛题目 题目: 计算两个集合的差集: 详细说明: 分别有集合A和B两个大数集合,求解集合A与B的差集(A中有,但B中无的元素),并将结果保存在集合C中,要求集合C中的元素升序. 输入为两个文件,分别为A.txt,B.txt,一行一个值,并且是无序的.结果输出到C.txt,即输入文件的差集,一行一个值,并且要求结果升序排列. 考量点: (1) 大数集合求差集: (2) 大数据集合排序: 题目实例: 例如,若集合A={5,20,10,15,25,30},集合B={1

平安科技移动开发二队技术周报(第六期)

平安科技移动开发二队技术周报(第六期) 业界新闻 1)WWDC 15 发布会 在一段迥异过往风格的搞笑彩排视频之后,今年 WWDC 2015 拉开了帷幕,库克表示这是最国际化的一次发布会,有来自 70 个国家的不同开发者,在场有 80% 的人是首次参加 WWDC. 尽管传闻中的 Apple TV 和互联网电视台服务没有出现,但产品软件层面上的更新仍然令人欣喜. 2)Swift 2.0发布:即将开源,支持Linux 在6月9日凌晨举行的WWDC 2015全球开发者大会上,苹果发布了Swift 2.