阿里音乐流行趋势预测大赛一起做-(2)weka初识

本次比赛第一赛季我们团队大赛先用weka对数据进行预处理。weka是一款开源的,免费的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。我非常喜欢这个软件,很容易上手,功能很强大,也不需要很多的编程,图形化做的比较好。打算在数据预处理上主要使用weka。

weka下载安装

weka软件下载网址,根据自己的操作系统选择Windows还是Mac,32位还是64位,强烈推荐装64位系统,因为赛题数据较大,约500M,如果想一次性读取的话,大概需要3.5G内存,而32位系统最大的物理寻址内存也就是4G,再加上系统其它占用,无法一次性导入这么大的数据。当然你也可以分批次导入,这样麻烦一些,需要自己研究一下。

软件下载

在此选择的时候需要注意一下,如果你电脑本身没有装过JAVA虚拟机,就要选择如下红色方框内版本:

如果电脑里已经装过了JAVA虚拟机,选择红色方框下面那个下载安装即可。下载好后安装基本和普通软件安装方法一致。

设置环境变量

安装后需要设置一下环境变量:

首先你应该知道你jdk装在哪了!

我的电脑>右键>属性>高级>环境变量,在系统变量下方 点新建。

1.新建JAVA_HOME

变量名:JAVA_HOME

变量值:jdk的安装路径至根目录,比如说你装到了d盘,文件夹的名字是jdk1.7.5 那么这里你就粘贴D:\jdk1.7.5 不要加;号,一定是根目录,也就是看到第一个文件夹是bin的目录。大小写看清楚了,别乱加符号,写好点确定。

2.添加path变量

在系统变量里找到path变量双击点开,别的不要动,点到变量值里按键盘Home键,确保光标在第一个位置,写%JAVA_HOME%\bin;记得打; 分号,还要提示全是英文状态的符号前后没有什么空格。我只是为了你方便看清楚。

3.新建classpath变量

这个变量可配可不配

在系统变量里点新建

变量名: classpath

变量值: .;

变量值我就写的 点分号 就可以了! 有确定的就点确定!ok配好了!

weka更改默认内存,导入大文件

点击我的电脑>所有程序>weka3.6.13>weka3.6,就打开了weka。

注意还有一个图标weka3.6(with console)是命令行界面,我们初学者一般不用。

打开weka3.6后的界面如下:

我们选择红框里的第一项:explorer,打开后,我们就要导入数据,如下选择preprocess用来做数据预处理,然后点击open file打开要导入的文件,这里我们选择主办方提供的500M数据mars_tianchi_user_actions.csv

导入后可能会出现 out of memory错误,这是因为weka默认的内存不足引起的,具体查看方法:

首先找到weka的安装路径,我的安装路径是D:\Program Files\Weka-3-6,路径下有个RunWeka.ini文件,用记事本打开,里面有一行代码:

maxheap=1024M,这个是我的系统weka给我分配的内存,操作系统不同,weka版本不同这个默认内存可能不一样。由于weka软件运行本身也需要内存,所以虽然数据是500M,但是打开处理这500M数据需要的内存远不止500M。所以我们要更改此处默认设置,由于我的电脑是8G内存,我给weka分配5G内存,我将此处代码更改为maxheap=5120M。更改完后保存该文档并关闭。

更改weka内存后重新打开mars_tianchi_user_actions.csv文件,慢的话可能需要1~3分钟才能打开。打开后鼠标移动到最下面的任务栏,右键点击后出现memory information,如下图

左键单击后,等候几秒任务栏就会出现内存使用信息,如下图

free为目前空闲的内存,total为目前使用的内存,两者相减发现仅仅执行打开操作,已经使用了将近1G的内存。后面做其他的处理还需要消耗内存,所以默认内存大小设置稍微大一些比较好。

weka示例简析

我们简单介绍一下weka的数据可视化,让大家对weka的简便易用有个直观了解。

我们选择open file,打开mars_tianchi_songs文件,出现如下界面

我们以publish_time为例来说明,因为song_id,artist_id取值太多,右下角无法显示。两个红框里的distinct表示publish_time里包含的不同数值的个数,unique表示某数值仅出现一次的这种情况数值个数。

再来看右下角的图,横坐标表示publish_time的取值范围,纵坐标表示,该值重复出现了多少次。注意红框里标注的class:gender表示将每个纵坐标内的gender进行了统计显示。gender在这里表示男,女,乐队组合,分别用红,绿,蓝三种颜色表示(不一定对应上述的男,女,乐队组合)。假如绿色表示男,红色表示女,蓝色表示乐队组合。此图给出的信息是:

1. publish_time取值范围从19630322到20160207。时间跨度挺大。

2. 从左到右看,早期的时候只有绿色,后来逐渐出现了红色,然后才出现了蓝色。说明gender这个字段对publish_time还是有一定的辨别效果的。

当然,也可以选择class的选项为其他几个字段。

实际上,此处存在一个问题,publish_time是日期类型,而weka默认的类型为numeric,也就是数字型。这点需要做修改。这些后续再介绍。

总结

至此,我们已经会用weka对数据做一个基本的可视化操作了。不难发现,weka对数据预处理的能力非常强大,不像Python,R那样需要写函数,再作图。weka直接点点点就帮我们都做好啦,实在太方便啦。

时间: 2024-10-05 23:51:37

阿里音乐流行趋势预测大赛一起做-(2)weka初识的相关文章

阿里音乐流行趋势预测大赛,赛后总结

一.赛题介绍 1.赛题数据: 已知x个歌曲艺人在阿里音乐上的用户记录数据(2015年03月01日-2015年08月30日) 用户行为表:一行记录某个用户某日对某首歌曲的操作,包括:播放,下载,收藏 歌曲艺人表:一行记录某个艺人在某日发行某首歌曲的基本信息,其中包括该收歌曲的专辑收录时间,初始播放量,歌唱语言以及歌唱者的性别组成 预测这x个艺人在之后的2个月(2015年09月01日-2015年10月30日),共60天内每日的播放量. 选手提交表:一行记录某个艺人某日的播放量 2.赛制介绍 比赛共分

何炅加入阿里音乐预示“互联网+”三大发展走向

越来越多的明星加入到互联网的行业中,何炅加入阿里音乐,林依轮做互联网餐饮,赵薇和阿里影视合作,这给“互联网人”带来什么启示?传统企业领导又应该如何抓住“互联网+”的时代潮流让企业快速转型?要想与互联网结合获得更大的发展空间和更多的新商机,我们应该从互联网与传统娱乐行业的结合,捕捉“互联网+”的三大发展走向. 趋势1:“互联网+”开启传统行业的新格局 也许大家都看到了这个新闻,阿里音乐董事长高晓松微博称何炅将入职阿里音乐,担任首席内容官CCO,并晒出两人与CEO宋柯的合影称:“热烈欢迎何炅入职阿里

阿里音乐再出手,这一次微博、优土等小伙伴走上前线

此前有关阿里音乐将有新举动的传闻在昨天成为现实,天天动听和虾米音乐携手新浪微博.新浪娱乐.优酷土豆联合推出"亚洲新歌榜",此榜单的目的显然是为抬高阿里音乐的行业影响力,没准明年元旦在弄个亚洲音乐盛典也是有可能的,娱乐圈嘛就好这一口. 阿里音乐连续"出牌",这一次是"载体牌" 前段时间就听闻阿里音乐近期将会有新动作,当时曾写了<拿了一手好牌的阿里音乐接下来该怎么打?>,里面谈到了阿里音乐现在手中主要有五张王牌,"产品牌&quo

天天音乐与虾米合体阿里音乐 版权变现或成绝对优势

继阿里影业之后,前日天天动听与虾米音乐正式合体组建阿里音乐,阿里数娱布局再下一城,而此前各自为战的天天动听与虾米音乐也终于走到了一起.这背后除了阿里对于业务整合方面的考虑,也是在线音乐市场本身已进入更为激烈的版权竞争时代. 从免费盗版到版权大战,最后是抱团取暖引入巨头,在线音乐正经历着网络视频当年的成长路径.而在网络视频领域相对处于劣势的腾讯此次则选择了率先出击,在去年就重金砸向在线音乐市场欲重新洗牌.如今看来过去一年旗下音乐业务忍辱负重尝试在线音乐变现创新的阿里也终于决定今年重金采购版权,全面

拿了一手好牌的阿里音乐接下来该怎么打?

这两天有传言,在版权布局告一段落之后,阿里音乐将会在6月有进一步行动,具体内容或与资源整合有关.过去一年阿里音乐一直都在做各种尝试,其将在线音乐与电商结合的变现方式也曾激起过行业热议,不过,看似阿里在在线音乐市场已拿了一手好牌,但现在的问题是这些牌究竟该怎么打? 产品牌:天天动听+虾米音乐,阿里音乐手握两张关键牌 两个月之前,阿里宣布整合天天动听和虾米音乐正式组建阿里音乐,这算是阿里首次在官方上明确了天天动听和虾米音乐的战略地位.此前,天天动听和虾米音乐虽然背后都是阿里,但二者各自为战,无论从运

关于2015阿里移动推荐算法大赛的总结(三)——机器学习

关于2015阿里移动推荐算法大赛的总结(一) 关于2015阿里移动推荐算法大赛的总结(二)--推荐算法 关于2015阿里移动推荐算法大赛的总结(三)--机器学习 后来我们回归到正途上,虽然我们也想用深度学习的方法,但是毕竟还是菜鸟的水平,所以把目标定在能用机器学习跑通一遍,顺带熟悉一下各种机器学习算法的实际应用.但是最后的最后我们只用了LR,然后就受打击了.哈哈~ 想用机器学习的方法,那么思路其实也很明确,问题是那一天用户是买还是不买,那么可以看成是二分法.通过用户行为方式来判断是否会购买.就是

关于2015阿里移动推荐算法大赛的总结(二)——推荐算法

虽然开始走错了路,但是也学到了东西,美团技术团队的文档还是不错的,喜欢的童鞋可以经常去瞅瞅,后面我会给链接的~~~~ -------------------------------------------------------------- 具体流程 基本流程如下,借用美团的图. 从框架的角度看,推荐系统基本可以分为数据层.触发层.融合过滤层和排序层.数据层包括数据生成和数据存储,主要是利用各种数据处理工具对原始日志进行清洗,处理成格式化的数据,落地到不同类型的存储系统中,供下游的算法和模型使

拯救在线音乐?Apple Watch还要做的更多

Apple Watch的发布最终尘埃落定,不管是对天价的吐槽,还是对续航的无奈,抑或是看到时尚单品的欣喜,都只是个人的感受.而对于整个互联网.智能硬件市场乃至相关行业来说,Apple Watch带来的震动才刚刚开始.其中,对于在线音乐行业来说,或将是一个华丽的转折点. 不过实事求是地说,我们也应该看到Apple Watch本身的定位--时尚和科技真正的融合产品.而时尚只是小部分人才享有的--价格在那里放着,Apple Watch要想真正拯救在线音乐行业,或许还要做出更多努力. Apple Wat

阿里王坚:机器比人做得好的事,那这件事就不该由人来做

去年云栖大会上,杭州市政府联合阿里云在内的13家企业提出建设“城市大脑”项目. 雷锋网了解到,“城市大脑”可以理解为一座城市的人工智能中枢.其内核采用阿里云ET人工智能技术,可以对整个城市进行全局实时分析,自动调配公共资源,修正城市运行中的Bug,最终将进化成为能够治理城市各项“疑难杂症”的超级人工智能. “城市大脑”就是下一个登月计划,未来十年催生的技术将远超今天的想象.”“城市大脑”的总规划师王坚如是说.王坚目前担任阿里巴巴首席架构师,他表示“城市大脑是杭州代表中国的城市为世界在做一次探索,