R语言学习笔记-机器学习1-3章

在折腾完爬虫还有一些感兴趣的内容后，我最近在看用R语言进行简单机器学习的知识，主要参考了《机器学习-实用案例解析》这本书。

这本书是目前市面少有的，纯粹以R语言为基础讲解的机器学习知识，书中涉及11个案例。分12章。作者备注以及代码部分都讲得比较深。不过或许因为出书较早，在数据处理方面，他使用更多的是plyr包，而我用下来，dplyr包效果更好。所以许多涉及数据处理的代码，其实可以用更简洁的方法重写。但是思路却是实打实的精华。

我之前在某长途动车上啃完了前三章，两个案例。但越往后读，越觉得后面案例处理方法越复杂，更加晦涩了，需要更多时间消化，因此暂停下来，先把前两个案例给理理顺，消化一下结构点。

书中案例数据及代码均可在官方github中下载到，地址为https://github.com/johnmyleswhite/ML_for_Hackers

案例1：美国UFO观察

该案例用的是一个含有60,000多条不明飞行物的目击记录和报告的数据集。需要回答UFO出现是否有周期性规律，以及地域规律两个问题。主要涉及数据清洗环节。

在研读后，我绘制的流程图如下图：

案例2：二分法判别垃圾邮件

该案例用的是来自于SpamAssasin的邮件，它分为垃圾邮件spam，易识别的正常邮件easy ham，不易识别的正常邮件hard ham三个类型。案例目的是做一个分类器，能够通过词频特征（如html等）快速识别邮件的类型。

使用的是朴素贝叶斯分类法。

绘制的流程图及注意事项见下：

流程图用visio 2013绘制。很喜欢它的手绘风流程图，之前想尝试一下其他流程图软件，比较下来，还是visio最好用啊……

接下来的本月目标

1）金融时间序列

2）机器学习4-7章

时间： 2024-10-10 03:03:37

R语言学习笔记-机器学习1-3章的相关文章

R语言学习笔记2——绘图

R语言提供了非常强大的图形绘制功能.下面来看一个例子: > dose <- c(20, 30, 40, 45, 60)> drugA <- c(16, 20, 27, 40, 60)> drugB <- c(15, 18, 25, 31, 40) > plot(dose, drugA, type="b") > plot(dose, drugB, type="b") 该例中,我们引入了R语言中第一个绘图函数plot.pl

R语言学习笔记

參考:W.N. Venables, D.M. Smith and the R DCT: Introduction to R -- Notes on R: A Programming Environment for Data Analysis and Graphics,2003. http://bayes.math.montana.edu/Rweb/Rnotes/R.html 前言:关于R 在R的官方教程里是这么给R下注解的:一个数据分析和图形显示的程序设计环境(A system for data

R语言学习笔记之可视化地研究参议员相似性

基于相似性聚类很多时候,我们想了解一群人中的一个成员与其他成员之间有多么相似.例如,假设我们是一家品牌营销公司,刚刚完成了一份挂怒有潜力新品牌的研究调查问卷.在这份调查问卷中,我们向一群人展示了新品牌的几个特征,并且要求他们对这个新品牌的每个特征按五分制打分.同时也收集了目标人群的社会经济特征,例如:年龄.性别.种族.住址的邮编以及大概的年收入. 通过这份调查问卷,我们想搞清楚品牌如何吸引不同社会经济特征的人群.最重要的是,我们想要知道这个品牌是否有很大的吸引力.换个角度想这个问题,我们想看看

R语言学习笔记（二）

今天主要学习了两个统计学的基本概念:峰度和偏度,并且用R语言来描述. > vars<-c("mpg","hp","wt") > head(mtcars[vars]) mpg hp wt Mazda RX4 21.0 110 2.620 Mazda RX4 Wag 21.0 110 2.875 Datsun 710 22.8 93 2.320 Hornet 4 Drive 21.4 110 3.215 Hornet Sportab

R语言学习笔记（1）

第一章:R语言介绍一 R的使用 1 R是一种区分大小写的解释型语言.R语句由函数和赋值构成.R使用<-作为赋值符号.例如: x<-rnorm(5) 创建了一个名为x的向量对象,它包含5个来自标准正态分布的随机偏差. 二图形输出 pdf(”filename.pdf")-- png("filename.png")-- jpeg("filename.jpg")- 三函数总结 help.start()--打开帮助文档首页 data()--列出当前

R语言学习笔记之: 论如何正确把EXCEL文件喂给R处理

前言: 应用背景兼吐槽继续延续之前每个月至少一次更新博客,归纳总结学习心得好习惯. 这次的主题是论R与excel的结合,又称论如何正确把EXCEL文件喂给R处理分为: 1. xlsx包安装及注意事项 2.用vba实现xlsx批量转化csv 以及,这个的对象,针对跟我一样那些从R开始接触编程的,一直以来都是用excel做数据分析的人……编程大牛请轻拍之所以要研究这个,是因为最近工作上接了个活,要把原来在excel端的报表迁移到R端,自动输出可视化图形,并制作PDF或PPT. 这个活可以分为

R语言学习笔记：基础知识

1.数据分析金字塔 2.[文件]-[改变工作目录] 3.[程序包]-[设定CRAN镜像] [程序包]-[安装程序包] 4.向量 c() 例:x=c(2,5,8,3,5,9) 例:x=c(1:100) 表示把1 - 100的所有数字都给x这个变量 5.查看x的类型:>mode(x) 6.查看x的长度:>length(x) 7.将两个向量组成一个矩阵: >rbind(x1, x2) 注:r是row的意思,即行,按行组成矩阵. >cbind(x1, x2) 注c是column的意思,

R语言学习笔记——日期时间处理

一.在利用R语言实际工作中,我们经常需要将字符串转换成时间,或者将时间转化成字符串,R语言和其他语言一样,你要告诉它如何转化?也就是告诉它format,它就可以正常的转化,但是在实际中,我碰到了一下几个很难注意的问题,先总结如下: 计算机如何理解日期:日期格式(也就是Date)表示为自1970年1月1日相对的数量,较1970-01-01更早的日期表示负值.(大部分语言都是这么处理的) 大部分语言有默认的日期格式,只要按照这个日期格式去转换字符串,计算机就能正确识别.如下: <span style

R语言学习笔记-概率函数

在R语言中,可以生成不同的分布,用于实验和学习. 在R中,概率函数形如①: 其中第一个字母表示其所指分布的某一方面: d = 密度函数(density) p = 分布函数(distribution function) q = 分位数函数(quantile function) r = 生成随机数(随机偏差) 常用的概率函数见下表: 表1 概率分布分布名称缩写分布名称缩写 Beta分布 beta Logistic分布 logis 二项分布 binom 多项分布 multinom 柯西分布 c

猜你喜欢

Global.asax文件—ASP.NET细枝末节（1）

说明 Global的解释是全局的.全球的. Global.asax 文件,有时候叫做 ASP.NET 应用程序文件,提供了一种在一个中心位置响应应用程序级或模块级事件的方法.你可以使用这个文件实现应用 ...

微信获取用户地理位置，查找出附近所有商家

微信获取用户地理位置,官网上文档不太完善,还是附上微信获取用户地理位置开发文档地址:https://mp.weixin.qq.com/wiki?t=resource/res_main&id= ...

我依然爱你，我只是不喜欢你了

我依然爱你,我只是不喜欢你了 ...

MATLAB中导入数据：importdata函数

用load函数导入mat文件大家都会.可是今天我拿到一个数据,文件后缀名竟然是'.data'.该怎么读呢? 我仅仅好用matlab界面Workspace区域的"import data&quo ...

Zendframework 模块加载事件触发顺序。

模块加载时事件触发的时间顺序: 1. loadModule.resolve(ModuleEvent::EVENT_LOAD_MODULE_RESOLVE):模块将被加载时触发,事件监听者将模块名解析 ...

一个轻量级的3D CSS 库

JavaScript 3D library 该项目的目的是为了打造轻量级的.实用简单的3D CSS库. Usage使用方法下载 minified库文件和 css文件,并将其包含于你的HTML中,就 ...

linux系统启动过程详解及root密码找回

系统启动流程 BIOS---->MBR:Boot Code---->执行引导程序GRUB(操作系统引导程序)---->加载内核---->执行init--->runleve ...

css实现高度垂直居中

1:单行文字垂直居中: 如果一个容器中只有一行文字的话,定义height(高度)和 line-height(行高)相等即可. 如:<div style="height:25px;lin ...

HTML学习笔记基础表格案例第二节（原创）参考使用表

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

BZOJ 1862: [Zjoi2006]GameZ游戏排名系统 [treap hash]

1862: [Zjoi2006]GameZ游戏排名系统 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 1318 Solved: 498[Submit][ ...

【插件开发】—— 8 IPreferenceStore，插件的键/值存储！

前文回顾: 1 插件学习篇 2 简单的建立插件工程以及模型文件分析 3 利用扩展点,开发透视图 4 SWT编程须知 5 SWT简单控件的使用与布局搭配 6 SWT复杂空间与布局搭配 7 SWT布局详解 ...

零起点学算法101——手机短号

源代码如下:#include<stdio.h> #include<string.h> void main() { int n,i; char a[11]; scanf(&quo ...

OpenGLES:: GLKView是如何工作的

本篇通过一个AGLKView的示例来深入了解一下上篇中GLKView的工作原理,目的是为了消除GLKView.Core Animation.OpenGLES间交互的神秘感: 本例位于点击此处下载,建议 ...

房贷新政银行心中有账：九折才保本七折不可能

房贷新政银行心中有账:九折才保本七折不可能行业动态华夏时报[微博]肖君秀2014-10-11 02:26 我要分享 1 央行.银监会联手发布房贷新政,房地产刺激由此前的放松限购加码至放松限贷,市场随 ...

springboot项目怎么部署到外部tomcat

spring-boot项目中,默认提供内嵌的tomcat,所以打包直接生成jar包,用Java -jar命令就可以启动. 但是也有一定的需求,会使用外部tomcat来部署项目.下面来看: 1.新建项目 ...

MySQL远程访问授权

开启 MySQL 的远程登陆帐号有两大步: 1.确定服务器上的防火墙没有阻止 3306 端口. MySQL 默认的端口是 3306 ,需要确定防火墙没有阻止 3306 端口,否则远程是无法通过 330 ...

如何配置Windows 2012和Windows 2008多用户同时登录远程桌面

Windows2008和Windows2012服务器版本操作系统默认情况下只能支持一个用户远程.如果第二个人远程上去之后会直接把前面一个登录用户踢掉:所以我们需要解决这样的事情.Windows2008 ...

可视格式化（CSS 终极之南随笔）

文档的可视格式化分为两部分. 竖直方向的渲染格式化和水平方向的渲染格式化. 文档的渲染是以CSS的盒子模型为基础进行的. CSS盒子模型从内到外是内容->内部空白->边框->外部空 ...

创建分和生日比较数组

$file = 'xingxiu.php'; $xx = array( 0=>array('id'=>13,'xingxiu'=>'室宿'), 1=>array('id'=&g ...

linux基础总结1

#################虚拟机控制############## [[email protected] Desktop]$ rht-vmctl start desktop###开启deskto ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.