14-立刻、马上数据挖掘,生活就是这么刺激

记得群主在青葱的大学岁月,经常从图书馆贪婪地借书。我不喜欢在冬天或夏天去图书馆蹭空调自习,觉得太舒服了(事实是不喜欢扎堆排队),而喜欢在破旧又有年代感的自习室里蒸着桑拿或瑟瑟发抖学着习。没错,就是这么自虐。说到图书馆,暑假是可以借十本书的。我经常为这十本书斟酌一下午。记得一次我拿了《居里夫人自传》,还有《C++ programming》之类的英文原版装逼书。走过计算机类书架,我无法不注意到其中竟默默地躺着一些《数据仓库》、《数据挖掘》之类不知所云的书。我的第一感觉是好土,不想碰。我想,这是一群DBA看的书吧(DBA不要打我)?我的目标是成为一枚闪闪发光的程序员啊。所以我连第一页都没翻开,就让那些智慧尘封在图书馆里变黄变脆……再回首已百年身,十年过去,数据已成为黄金在互联网世界流动,而数据挖掘也有了掘金的新贵意味。如果能穿越,我会回到那个吊扇吱呀作响的图书馆,拿上十本《数据挖掘从入门到卧室》,《数据仓库从小工到专家》,然后诚恳地塞进我自己手里说:“少年,认真看吧,不亏。”

时光如白驹过隙,如今很多大学的计算机本科生已把Python作为必修课程了,大数据也作为一个全新专业强势入驻各知名高校。让我们seize the day,立刻、马上数据挖掘吧!

1探索并可视化房价数据

波士顿房价数据下载链接:https://pan.baidu.com/s/1c1X4Aje

代码下载链接(拷贝到ipython notebook中运行):https://pan.baidu.com/s/1mhQ298O

属性说明:

1. CRIM      per capita crime rate by town 每个城镇人均犯罪率

2. ZN        proportion of residential land zoned for lots over

25,000 sq.ft. 超过25000平方尺用地划为居住用地的百分比

3. INDUS     proportion of non-retail business acres per town 非零售商用地百分比

4. CHAS      Charles River dummy variable (= 1 if tract bounds

river; 0 otherwise) 是否被河道包围

5. NOX       nitric oxides concentration (parts per 10 million) 氮氧化物浓度

6. RM        average number of rooms per dwelling 住宅平均房间数目

7. AGE       proportion of owner-occupied units built prior to 1940 1940年前建成自用单位比例

8. DIS       weighted distances to five Boston employment centres 5个波士顿就业服务中心的加权距离

9. RAD       index of accessibility to radial highways 无障碍径向高速公路指数

10. TAX      full-value property-tax rate per $10,000 每万元物业税率

11. PTRATIO  pupil-teacher ratio by town 小学师生比例

12. B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks

by town 黑人比例指数

13. LSTAT    % lower status of the population 低层人口比例

14. MEDV     Median value of owner-occupied homes in $1000‘s 业主自住房屋中值 (要预测的变量)

数据分析的第一步是进行探索性数据分析 (Exploratory Data Analysis, EDA),理解变量的分布与变量之间的关系。

从图中看出:

  • RM 和 MEDV 似乎是有线性关系的;
  • MEDV 类似 normal distribution。

  • 对与 MEDV correlation 高的变量感兴趣,LSTAT 最高(-0.74), 其次是 RM (0.7)。
  • 但从之前的图看出 MEDV 与 LSTAT 呈非线性关系,而与 RM 更呈线性关系,所以下面选用 RM 来演示简单线性回归。

2梯度下降法

机器学习算法中经常会求x的一组系数w(为向量),使得损失函数J(w)最小。损失函数可以理解为实际值y和理论值的误差平方和(为了求导方便往往乘上1/2)。最小化损失函数时,梯度下降(Gradient Descent)是最常采用的方法之一。

在微积分里面,对多元函数的参数求?偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(?f/?x, ?f/?y)T,简称grad f(x,y)或者▽f(x,y)。

梯度下降法是一个最优化算法,通常也称为最速下降法。许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。

Wiki上的解释为如果目标函数 F(x)在点 a处可微且有定义,那么函数 F(x)在点 a 沿着梯度相反的方向 ??F(a)下降最快。其中, ?为梯度算子,

设定起始点的负梯度方向 (即损失函数值减小的方向) 为搜索方向,寻找最小值。梯度下降法越接近目标值,步长越小,前进越慢。

 = (w0+w1*x1+w2*x2+......+wn*xn)

下面我们来手写一个梯度下降算法的类:

发现在 epoch 5之后 cost 基本就不能再减小了。

3使用scikit-learn的LinearRegression建模

我们也可以直接使用scikit-learn.linear_model模块中的LinearRegression类来实现线性回归建模:

本来这周想先来点数据挖掘导论过渡一下,但我想大家应该已经等不及了。而且直面困难是实现进步的最快方法。所以为大家呈现了本次又干又硬的课程。希望大家慢慢消化。下周我们学习如何建立对outlier不敏感的健壮线性回归模型,敬请期待:)

时间: 2024-10-13 07:26:50

14-立刻、马上数据挖掘,生活就是这么刺激的相关文章

14年高考结束了,明日边缘看完了,明天周一了 (2014-06-08)

七年前的现在,我满怀信心以为自己可以够得上一所重点,至少也得是XX大学吧,不料结果和预期相去甚远.只休息了一个月在家,7月7号便又来到了学校,开始了新的一年的奋斗.07-08学年,一直顺风顺水,除了六年前的08年高考.这次考完后,真的如释重担,知道数学考得不好,理综考得更是不好,但心意已决:无论如何不会再复读(现在多想当时我复读了,并且及时发现了自己身上的致命缺陷..怪自己见识不够,看不到这件事的长远意义,也怪自己没向身边的哥哥姐姐寻求帮助,只是一心单纯的认为:凭借自己满腔用不完的热血,一定能够

【分享】数据挖掘学习资料免费下载

 Artificial Intelligence - Wiley - Data Mining - Concepts Models Methods and Algorithms - 2003.chm 8.4 MB  IEEE - Finding Patterns in Three Dimensional Graphs Algorithms and Applications to Scientific Data Mining.pdf 561.8 KB  Mining The Web - Discov

顶尖大数据挖掘实战平台(TipDM-H8)产品白皮书

    顶尖大数据挖掘实战平台 (TipDM-H8)           产  品  说  明  书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http://www.tipdm.com 邮箱: [email protected] 热线: 40068-40020 企业QQ:40068-40020 邮编: 510663 电话: (020)82039399 目  录 1                     引言.....................

权限管理与切换(二十一)

权限管理与切换:sudo,id,chmod,chown,chgrp,setfacl,getfacl,umask 21.1.su 功能:变更用户身份(super user) 切换用户时: 切换用户时: (1) 不读取目标用户的配置文件(非登录式切换,半切换): su  USERNAME (2) 读取目标用户的配置文件(登录式切换,完全切换): su  -l  USERNAME su  -  USERNAME 注意:root切换至任何其它用户无须认证密码:普通用户切换至其它用户,都需要密码: 21.

百亿互金平台救火故事

多年前,又是周六客服打电话过来,平台官网不能访问,app完全无法打开,客户在QQ群和微信群中各种反馈,说平台是不是跑路了?客服的多条400热线完全被打爆,电话已经接不过来- 前言 一直以来总是想以什么方式去记录下自己在互金行业的这段经历,趁着自己还记得清楚,还能找到一些资料原型,一方面可以分享出来供大家参考,但是更重要就是多年以后我可以根据这些文章回忆起来自己的那段激情岁月. 想了很久但一直没有实施,后来觉得应该从架构的角度来梳理一篇文章,就写了从零到百亿互联网金融架构发展史这篇文章:最后认为只

你刚被人工智能洗脑,最聪明的钱已转向这16项技术

不久前,信息技术研究公司Gartner发布了2017年度“新兴技术成熟度曲线”(The Hype Cycle),这是用来评估新科技可见度的一种工具, 也是技术企业投资决策的重要风向标. 根据技术成熟演变速度及要所需时间的预测,Gartner将曲线分成5个阶段:触发期(技术萌芽期).期望膨胀期.幻灭期.复苏期.生产成熟期. 2017年,进入Hype Cycle中的技术一共有33项.其中,以深度学习.机器学习技术为代表的人工智能众望所归,处于期望膨胀期的顶峰:曾经热炒的VR.AR则处于期望幻灭期或艰

L4,an exciting trip

expressions: a great number of 许多 in the centre of 在…的中部 sentences: I have just had breakfast. I have never been to S. He has just left the house. He hasn’t washed the dishes yet. Have you read this book? words: receive收到 take拿走 exciting: 形容词,令人兴奋的 动

Android M运行时权限详解

好久之前在网上看到国外一篇关于M的权限机制详解,由于是英文的,刚好最近闲的没事做,顺手翻译一下. 英文原文地址:https://inthecheesefactory.com/blog/things-you-need-to-know-about-android-m-permission-developer-edition/en 翻译水平有限,凑合着看吧. 前几天官方公布了Android M的名字,最终版本也将在不久后发布. 虽然Android还在不断发生着变化,最新M版本的更新和以往是完全不同的,

技术移民直通车要发车了-快来秒杀你的车票

你是否觉得新西兰技术移民离你甚远? 你是否觉得技术移民是一件非常艰难的事情? 你是否希望挣脱人生瓶颈换一个自然环境生活,但却苦于没有门路? 或者 你已经在移民的道路上,但遥遥无期的等待让你不知何去何从? 也许,今天这篇文章能够给你一个答案. 漫漫移民路 谈到新西兰技术移民的申请方式,总的来说可以分为两大类: 离岸(offshore)技术移民申请-在新西兰以外外的地方提交的技术移民申请. 在岸(onshore)技术移民申请-事先通过其他合法签证途径登陆新西兰以后,再提交的技术移民申请. 而无论是上