14-立刻、马上数据挖掘，生活就是这么刺激

记得群主在青葱的大学岁月，经常从图书馆贪婪地借书。我不喜欢在冬天或夏天去图书馆蹭空调自习，觉得太舒服了（事实是不喜欢扎堆排队），而喜欢在破旧又有年代感的自习室里蒸着桑拿或瑟瑟发抖学着习。没错，就是这么自虐。说到图书馆，暑假是可以借十本书的。我经常为这十本书斟酌一下午。记得一次我拿了《居里夫人自传》，还有《C++ programming》之类的英文原版装逼书。走过计算机类书架，我无法不注意到其中竟默默地躺着一些《数据仓库》、《数据挖掘》之类不知所云的书。我的第一感觉是好土，不想碰。我想，这是一群DBA看的书吧（DBA不要打我）？我的目标是成为一枚闪闪发光的程序员啊。所以我连第一页都没翻开，就让那些智慧尘封在图书馆里变黄变脆……再回首已百年身，十年过去，数据已成为黄金在互联网世界流动，而数据挖掘也有了掘金的新贵意味。如果能穿越，我会回到那个吊扇吱呀作响的图书馆，拿上十本《数据挖掘从入门到卧室》，《数据仓库从小工到专家》，然后诚恳地塞进我自己手里说：“少年，认真看吧，不亏。”

时光如白驹过隙，如今很多大学的计算机本科生已把Python作为必修课程了，大数据也作为一个全新专业强势入驻各知名高校。让我们seize the day，立刻、马上数据挖掘吧！

1探索并可视化房价数据

波士顿房价数据下载链接：https://pan.baidu.com/s/1c1X4Aje

代码下载链接（拷贝到ipython notebook中运行）：https://pan.baidu.com/s/1mhQ298O

属性说明:

1. CRIM per capita crime rate by town 每个城镇人均犯罪率

2. ZN proportion of residential land zoned for lots over

25,000 sq.ft. 超过25000平方尺用地划为居住用地的百分比

3. INDUS proportion of non-retail business acres per town 非零售商用地百分比

4. CHAS Charles River dummy variable (= 1 if tract bounds

river; 0 otherwise) 是否被河道包围

5. NOX nitric oxides concentration (parts per 10 million) 氮氧化物浓度

6. RM average number of rooms per dwelling 住宅平均房间数目

7. AGE proportion of owner-occupied units built prior to 1940 1940年前建成自用单位比例

8. DIS weighted distances to five Boston employment centres 5个波士顿就业服务中心的加权距离

9. RAD index of accessibility to radial highways 无障碍径向高速公路指数

10. TAX full-value property-tax rate per $10,000 每万元物业税率

11. PTRATIO pupil-teacher ratio by town 小学师生比例

12. B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks

by town 黑人比例指数

13. LSTAT % lower status of the population 低层人口比例

14. MEDV Median value of owner-occupied homes in $1000‘s 业主自住房屋中值（要预测的变量）

数据分析的第一步是进行探索性数据分析 (Exploratory Data Analysis, EDA)，理解变量的分布与变量之间的关系。

从图中看出：

RM 和 MEDV 似乎是有线性关系的；
MEDV 类似 normal distribution。

对与 MEDV correlation 高的变量感兴趣，LSTAT 最高(-0.74)，其次是 RM (0.7)。
但从之前的图看出 MEDV 与 LSTAT 呈非线性关系，而与 RM 更呈线性关系，所以下面选用 RM 来演示简单线性回归。

2梯度下降法

机器学习算法中经常会求x的一组系数w（为向量），使得损失函数J(w)最小。损失函数可以理解为实际值y和理论值的误差平方和（为了求导方便往往乘上1/2）。最小化损失函数时，梯度下降（Gradient Descent）是最常采用的方法之一。

在微积分里面，对多元函数的参数求?偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(?f/?x, ?f/?y)T,简称grad f(x,y)或者▽f(x,y)。

梯度下降法是一个最优化算法，通常也称为最速下降法。许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的，最速下降法越接近目标值，步长越小，前进越慢。

Wiki上的解释为如果目标函数 F(x)在点 a处可微且有定义，那么函数 F(x)在点 a 沿着梯度相反的方向 ??F(a)下降最快。其中, ?为梯度算子，。

设定起始点的负梯度方向 (即损失函数值减小的方向) 为搜索方向，寻找最小值。梯度下降法越接近目标值，步长越小，前进越慢。

= (w0+w1*x1+w2*x2+......+wn*xn)

下面我们来手写一个梯度下降算法的类：

发现在 epoch 5之后 cost 基本就不能再减小了。

3使用scikit-learn的LinearRegression建模

我们也可以直接使用scikit-learn.linear_model模块中的LinearRegression类来实现线性回归建模：

本来这周想先来点数据挖掘导论过渡一下，但我想大家应该已经等不及了。而且直面困难是实现进步的最快方法。所以为大家呈现了本次又干又硬的课程。希望大家慢慢消化。下周我们学习如何建立对outlier不敏感的健壮线性回归模型，敬请期待：）

时间： 2024-10-13 07:26:50

14-立刻、马上数据挖掘，生活就是这么刺激的相关文章

14年高考结束了，明日边缘看完了，明天周一了（2014-06-08）

七年前的现在,我满怀信心以为自己可以够得上一所重点,至少也得是XX大学吧,不料结果和预期相去甚远.只休息了一个月在家,7月7号便又来到了学校,开始了新的一年的奋斗.07-08学年,一直顺风顺水,除了六年前的08年高考.这次考完后,真的如释重担,知道数学考得不好,理综考得更是不好,但心意已决:无论如何不会再复读(现在多想当时我复读了,并且及时发现了自己身上的致命缺陷..怪自己见识不够,看不到这件事的长远意义,也怪自己没向身边的哥哥姐姐寻求帮助,只是一心单纯的认为:凭借自己满腔用不完的热血,一定能够

【分享】数据挖掘学习资料免费下载

Artificial Intelligence - Wiley - Data Mining - Concepts Models Methods and Algorithms - 2003.chm 8.4 MB IEEE - Finding Patterns in Three Dimensional Graphs Algorithms and Applications to Scientific Data Mining.pdf 561.8 KB Mining The Web - Discov

顶尖大数据挖掘实战平台（TipDM-H8）产品白皮书

顶尖大数据挖掘实战平台 (TipDM-H8) 产品说明书广州泰迪智能科技有限公司版权所有地址: 广州市经济技术开发区科学城232号网址: http://www.tipdm.com 邮箱: [email protected] 热线: 40068-40020 企业QQ:40068-40020 邮编: 510663 电话: (020)82039399 目录 1 引言.....................

权限管理与切换（二十一）

权限管理与切换:sudo,id,chmod,chown,chgrp,setfacl,getfacl,umask 21.1.su 功能:变更用户身份(super user) 切换用户时: 切换用户时: (1) 不读取目标用户的配置文件(非登录式切换,半切换): su USERNAME (2) 读取目标用户的配置文件(登录式切换,完全切换): su -l USERNAME su - USERNAME 注意:root切换至任何其它用户无须认证密码:普通用户切换至其它用户,都需要密码: 21.

百亿互金平台救火故事

多年前,又是周六客服打电话过来,平台官网不能访问,app完全无法打开,客户在QQ群和微信群中各种反馈,说平台是不是跑路了?客服的多条400热线完全被打爆,电话已经接不过来- 前言一直以来总是想以什么方式去记录下自己在互金行业的这段经历,趁着自己还记得清楚,还能找到一些资料原型,一方面可以分享出来供大家参考,但是更重要就是多年以后我可以根据这些文章回忆起来自己的那段激情岁月. 想了很久但一直没有实施,后来觉得应该从架构的角度来梳理一篇文章,就写了从零到百亿互联网金融架构发展史这篇文章:最后认为只

你刚被人工智能洗脑，最聪明的钱已转向这16项技术

不久前,信息技术研究公司Gartner发布了2017年度“新兴技术成熟度曲线”(The Hype Cycle),这是用来评估新科技可见度的一种工具, 也是技术企业投资决策的重要风向标. 根据技术成熟演变速度及要所需时间的预测,Gartner将曲线分成5个阶段:触发期(技术萌芽期).期望膨胀期.幻灭期.复苏期.生产成熟期. 2017年,进入Hype Cycle中的技术一共有33项.其中,以深度学习.机器学习技术为代表的人工智能众望所归,处于期望膨胀期的顶峰:曾经热炒的VR.AR则处于期望幻灭期或艰

L4,an exciting trip

expressions: a great number of 许多 in the centre of 在…的中部 sentences: I have just had breakfast. I have never been to S. He has just left the house. He hasn’t washed the dishes yet. Have you read this book? words: receive收到 take拿走 exciting: 形容词,令人兴奋的动

Android M运行时权限详解

好久之前在网上看到国外一篇关于M的权限机制详解,由于是英文的,刚好最近闲的没事做,顺手翻译一下. 英文原文地址:https://inthecheesefactory.com/blog/things-you-need-to-know-about-android-m-permission-developer-edition/en 翻译水平有限,凑合着看吧. 前几天官方公布了Android M的名字,最终版本也将在不久后发布. 虽然Android还在不断发生着变化,最新M版本的更新和以往是完全不同的,

技术移民直通车要发车了-快来秒杀你的车票

你是否觉得新西兰技术移民离你甚远? 你是否觉得技术移民是一件非常艰难的事情? 你是否希望挣脱人生瓶颈换一个自然环境生活,但却苦于没有门路? 或者你已经在移民的道路上,但遥遥无期的等待让你不知何去何从? 也许,今天这篇文章能够给你一个答案. 漫漫移民路谈到新西兰技术移民的申请方式,总的来说可以分为两大类: 离岸(offshore)技术移民申请-在新西兰以外外的地方提交的技术移民申请. 在岸(onshore)技术移民申请-事先通过其他合法签证途径登陆新西兰以后,再提交的技术移民申请. 而无论是上

猜你喜欢

华为云桌面

FusionAccess在解决方案中的位置关键特性关键特性 FusionAccess的网络位置和功能一.FusionAccess功能之资产管理 FusionAccess可创建虚拟桌面并分配给用户 ...

HDOJ 1823 Luck and Love

二维线段树模版题... Luck and Love Time Limit: 10000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Ja ...

作业：《构建之法：现代软件工程》

我读了前两章第一章概论软件 = 程序+软件工程软件工程是把系统的,有序的,可量化的方法应用到软件的开发,运行和维护上的过程软件工程包括下列领域:软件需求分析,软件设计,软件构建,软件测试和软 ...

[AngularJS] Angular 1.5 $transclude with name slot

In Angular 1.5, there is no link and component. So use if you transclude, you cannot access the fift ...

HDU1024 最大m子段和

Max Sum Plus Plus Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...

Android Logcat测试

Android Logcat测试

hdu 5195 DZY Loves Topological Sorting 线段树+拓扑排序

DZY Loves Topological Sorting Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://acm.hdu.edu.cn/sho ...

微信公众号开发-长链接转短链接

主要使用场景: 开发者用于生成二维码的原链接(商品.支付二维码等)太长导致扫码速度和成功率下降,将原长链接通过此接口转成短链接再生成二维码将大大提升扫码速度和成功率. http请求方式: POST h ...

2014年考研英语(一)阅读真题第2篇 A Problem in America's Legal Profession

All around the world, lawyers generate(产生敌意用) more hostility than the members of any other professi ...

Javascript定时器学习笔记

掌握定时器工作原理必知:JavaScript引擎是单线程运行的,浏览器无论在什么时候都只且只有一个线程在运行JavaScript程序. 常言道:setTimeout和setInterval是伪线程. ...

ubuntu设置samba

sudo apt-get install samba 安装完成之后新建共享目录 sudo mkdir /home/share 改变共享目录权限 sudo chmod -R 777 /home/shar ...

centos7架设vsftpd服务

网络控制相关命令: systemctl status network 网络状态 systemctl restart network 网络重启查看网络状态: nmcli connection show ...

血雨腥风：武则天和唐高宗的大清洗（先易后难，由内而外，曾经气焰熏天的大臣不过就是当年的狮子骢）

武则天我们先来看看在武则天和唐高宗对反对派进行大清洗的时候,长孙无忌在干什么呢?他在著书立说.中国古代政治家的传统是“达则兼济天下,穷则独善其身”.被重用的时候就胸怀天下,干一番轰轰烈烈的事业:不被 ...

刚开始学PLC学习什么课程比较好？

不知道学什么课程?有基础的建议先学西门子,西门子比较抽象难学,没基础的就先学三菱,三菱直观易懂好学,目前市面上的品牌非常多,不可能每一种品牌都学,三菱和西门子是最具有代表性的两种品牌,这两种都会了之后 ...

关于offsetParent

了解offsetParent 1.当有定位父级时,则offsetParent是指当前元素最近的一个定位父级 2.在没有定位父级 (1)自身没有定位的情况下,各浏览器默认的offsetParent指bo ...

七种经典排序算法最全攻略

经典排序算法在面试中占有很大的比重,也是基础.包括冒泡排序,插入排序,选择排序,希尔排序,归并排序,快速排序,堆排序.希望能帮助到有需要的同学.全部程序采用JAVA实现. 本篇博客所有排序实现均默认从 ...

bootstrap ace treeview树表

html部分 <div class="widget-main padding-8" style="height:400px;overflow-y: scroll;& ...

以苹果为首的品牌正在掀起二手手机“第二春”？

每年几十场的手机新机发布会总是格外抢眼,各种品牌也总喜欢在大促后炫耀自己的出货量,但有数据表明二手手机的受欢迎程度也在逐渐升高,市场正在升温.据回收宝2017年Q1季度手机回收大数据报告显示,从201 ...

使用MyEclipse整合ssh(Struts、Spring、Hibernate)三大框架(环境搭载+实例源码下载)

前言 SSH不是一个框架,而是多个框架(struts+spring+hibernate)的集成,是目前较流行的一种Web应用程序开源集成框架,用于构建灵活.易于扩展的多层Web应用程序. 集成SSH框 ...

按键的灵活动作

按下1不停的发送,再按一次停止: $a:: 按 go:=!go settimer,aaa,500 return aaa: if(go=1) send a else settimer,aaa,off r ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.