大数据在教育中的应用 part2笔记

什么是交叉检验(K-fold cross-validation)

K层交叉检验就是把原始的数据随机分成K个部分。在这K个部分中,选择一个作为测试数据,剩下的K-1个作为训练数据。

交叉检验的过程实际上是把实验重复做K次,每次实验都从K个部分中选择一个不同的部分作为测试数据(保证K个部分的数据都分别做过测试数据),剩下的K-1个当作训练数据进行实验,最后把得到的K个实验结果平均。

http://www.ilovematlab.cn/thread-49143-1-1.html

交叉验证(CrossValidation)方法思想简介

以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV的方法如下:

1).Hold-Out Method

将原始数据随机分为两组,一组做为训练集,一组做为验证集,利用训练集训练分类器,然后利用验证集验证模型,记录最后的分类准确率为此Hold-OutMethod下分类器的性能指标.此种方法的好处的处理简单,只需随机把原始数据分为两组即可,其实严格意义来说Hold-Out Method并不能算是CV,因为这种方法没有达到交叉的思想,由于是随机的将原始数据分组,所以最后验证集分类准确率的高低与原始数据的分组有很大的关系,所以这种方法得到的结果其实并不具有说服性.

2).K-fold Cross Validation(记为K-CV)

将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的分类准确率的平均数作为此K-CV下分类器的性能指标.K一般大于等于2,实际操作时一般从3开始取,只有在原始数据集合数据量小的时候才会尝试取2.K-CV可以有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性.

3).Leave-One-Out Cross Validation(记为LOO-CV)

如果设原始数据有N个样本,那么LOO-CV就是N-CV,即每个样本单独作为验证集,其余的N-1个样本作为训练集,所以LOO-CV会得到N个模型,用这N个模型最终的验证集的分类准确率的平均数作为此下LOO-CV分类器的性能指标.相比于前面的K-CV,LOO-CV有两个明显的优点:


a.每一回合中几乎所有的样本皆用于训练模型,因此最接近原始样本的分布,这样评估所得的结果比较可靠。


b.实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。

但LOO-CV的缺点则是计算成本高,因为需要建立的模型数量与原始数据样本数量相同,当原始数据样本数量相当多时,LOO-CV在实作上便有困难几乎就是不显示,除非每次训练分类器得到模型的速度很快,或是可以用并行化计算减少计算所需的时间.

如果你理解 k-fold cross validation的话,其实这个和它的意思是差不多的。k-fold,就是取整个样本的1/k作为预测样本,(k-1)/k作为训练样本。当用训练样本对数据作出模型后,再用预测样本来预测。
leave-one-out就是把n-1个样本作为训练集,剩下一个样本作为预测集。并且循环,使得每个样本都作为一次预测集,然后计算交叉验证的正确率。

http://blog.xuite.net/x5super/studyroom/61471385-%E4%B8%80%E7%AF%87%E5%BE%88%E6%A3%92%E7%9A%84%E6%B8%AC%E8%A9%A6%28%E5%9B%9E%E6%B8%AC%29%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0

时间: 2024-10-15 01:44:06

大数据在教育中的应用 part2笔记的相关文章

谭安林:大数据在教育行业的研究与应用

本文来自腾讯云技术沙龙,本次沙龙主题为在线教育个性化教学技术实践 演讲嘉宾:谭安林,腾讯高级工程师.2015年加入腾讯,8年互联网从业经历,从事大数据平台与产品开发相关工作:先后参与广告.金融等领域产品项目,目前负责行为预测解决方案,帮助客户盘活现有客群.挖掘潜在高价值新客.目前我们的产品包括:智能客服.大数据套件.腾讯移动分析.腾讯移动推送等. 今天我分享的是在腾讯云在大数据对用户行为预测这个项目中,有关教育行业的一些实践,希望可以给大家带来一些帮助.这一年我们所做的是用户行为预测解决方案,针

漫谈ELK在大数据运维中的应用

漫谈ELK在大数据运维中的应用 圈子里关于大数据.云计算相关文章和讨论是越来越多,愈演愈烈.行业内企业也争前恐后,群雄逐鹿.而在大数据时代的运维挑站问题也就日渐突出,任重而道远了.众所周知,大数据平台组件是很复杂的.而这庞大的系统整合问题,对于运维来说是很头疼的.所以,在大数据时代下的运维问题是日渐尖锐. 有人把运维比作医生给病人看病,那么日志则是病人对自己的陈述.所以只有在海量分布式日志系统中有效的提取关键信息,才能对症下药.如果能把这些日志集中管理,并提供全文检索功能,不仅可以提高诊断的效率

R运行大数据的过程中遇到的问题:不能有负长度矢量

解决办法: 只能通过一些trick来减小生成的中间矩阵的大小.比如我所遇到的问题是: 我要运行(W%*%H%*%t(H)) 这句话,(W的规模是5000000*10,而H的规模是10*100000) 解释执行W%*%H的时候报错:不能有负长度矢量. 坑爹的中文报错,google发现,和中文有关的R文档.记录真是少得可怜,终于通过英文“negative length vectors are not allowed”这句话, 看到老外们的解释,才知道了,简而言之就是因为数据规模太大,而R系统不允许生

大数据之----hadoop中各pid进程号之快速定位

经常管理和监控,需要进行shell编程,直接对进程kill或者重启操作.我们需要进行快速定位到每个进程的pid号pid默认存储在/tmp目录 pid内容为进程号 ps -ef|grep hadoop 出现PID A,B,C 可能误杀B,C [[email protected] sbin]$ cat hadoop-daemon.sh |grep pid#HADOOPPIDDIR The pid files are stored. /tmp by default.pid=$HADOOP_PID_DI

【云杂谈】之四《大数据浪潮中,IT巨头和互联网新贵谁在裸泳?》

[云杂谈]之四<大数据浪潮中,IT巨头和互联网新贵谁在裸泳?> 摘要:在大数据浪潮中,许多公司都耐不住寂寞跳进海中冲浪.本文主要介绍不同类型的公司对大数据的理念和做法有哪些不同.IBM.Oracle等大IT巨头以及Google.Baidu等互联网新贵们对大数据商业策略上是有所不同的,以及他们选择这样策略的原因.然后,最终谁可能是在裸泳? 大数据的背景 关于大数据的说法很多,谈论最多的就是大数据的几个V.各大厂商对大数据的概念的阐述中,不管是4V(Volume.Velocity.Variety.

【原创】搜索引擎在大数据时代中的变革

现代的人类学习.生活.工作都已经离不开搜索引擎,如今的数据大爆炸时代,搜索引擎已经不仅是帮助用户从海量信息中找到结果,更是一种互联网服务.搜索引擎成为一个数据工厂,通过大数据挖掘,抽象结构化有价值的信息,加速信息流动,促使搜索为用户提供更多服务以及更高价值. 让用户对搜索结果进行筛选的时代很快就会被抛弃在时代的浪潮中,当前大数据时代研究最多的深度学习也是研究搜索引擎能够直接命中用户答案的途径之一,『所搜即所得』成为搜索引擎在大数据时代变革中的必然发展趋势. 除此之外,在大数据背景下,搜索引擎可以

张书乐:中科大“隐形资助”贫困生,是大数据的完胜

据新华社微信公号"新华视点"报道,中国科学技术大学于2004年在全国高校中首创"隐形资助"的方式,通过程序统计学生在食堂的消费记录发放补助,目的在于让贫困生更加有尊严地接受资助.从2004年到现在,中科大已"隐形资助"贫困生4万人次,累计资助金额达600万元. 很多人看到这则新闻,忍不住点赞在隐形之上,我还听到有朋友用夸赞的语气说道"资助也好,扶贫也罢,都要这样才好,悄悄的进村.打枪的不要." 文/张书乐(人民网.人民邮电报专

从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需求数据岗位. 大公司暂且不论,他们一切都走在前头.那么,对于中小型企业来说,开始尝试以数据的思维去思考问题,开始涉足大数据领域,这就是一个从0到1的过程了. 有(bu)幸(xing),近半年来,我亲自见证以及亲身体会到了这个过程,或者至今仍然在完善1这个过程中.期间,有痛苦有坑.有喜悦有成功.有沉静

第二期:关于十大数据相关问答汇总,关注持续更新中哦~

NO.1 学大数据如何零基础入门? 答:学习任何东西都一样,一开始就是一道坎,我很喜欢看书,特别是容易入门的书.对于大数据,我的具体研究方向是大规模数据的机器学习应用,所以首先要掌握以下基本概念.微积分(求导,极值,极限)线性代数(矩阵表示.矩阵计算.特征根.特征向量)概率论+统计(很多数据分析建模基于统计模型).统计推断.随机过程线性规划+凸优化.非线性规划等*数值计算.数值线代等当然一开始只要有微积分.线代以及概率论基本上就可以入门机器学习,我强烈推荐几本书,这几本书不需要看完,只需要对其中