数据分析算法

决策树

决策树用于对数据集中的记录进行分类。

假设每条记录都含有若干条属性，决策树根据属性进行分类。

ID3算法

如何决定选取哪条属性来进行划分？判断条件是根据该属性划分后数据集的信息熵最小（信息熵越小表明数据越整齐）,也就是熵差值最大。

假设A属性共有n个取值，按照A划分后将获得n个分支，每个分支里的子数据集都删除了A属性。

递归地对分支里的数据集实施划分。最终达到不可分或者所有数据都是相同值为止。

这将生成一颗决策树。利用决策树的叶子节点进行分类

c4.5算法

ID3的扩展，区别：
1.选取划分属性时比较的是熵差值/分裂度
2.c4.5运用了剪枝算法，减少噪点数据造成的过适应

http://blog.csdn.net/xuxurui007/article/details/18045943
http://blog.csdn.net/zjd950131/article/details/8027081

KNN

根据数据集的属性和每条记录的类别，判断新数据的类型。

计算数据点之间的距离，取最近的K个点中最多的类型作为新数据点的预测类型。
计算距离的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)

朴素贝叶斯(naive Bayes)

(待续)

时间： 2024-11-13 10:49:59

数据分析算法的相关文章

数组数据分析算法中峰区域的确定

做数据分析算法,使用MATLAB进行算法研究,使用C#进行工程实现比较合适,目前出现这样的情况,有一个数组,经过某种超分辨算法得到的数据点很稀疏,而且峰区域变得又高又细的.所以需要对该区域求和,就涉及到了峰位的确定,进而进行峰区域的确定,这里要注意,必须先确定峰位,再谷位,进而峰区域. matlab实现算法的思路为 1.基于局部极值算法从原始数据数组获取局部极值数组(极大值,极小值,极大值索引,极小值索引): 2.极大值降序排列: 3.查找与极大值的索引最相邻的两个极小值索引,确定峰区域: 4.

从机器学习到学习的机器，数据分析算法也需要好管家

(上图为IBM大数据与分析事业部全球研发副总裁Dinesh Nirmal) 今年是莎士比亚逝世四百周年.在莎翁名剧<尤利乌斯·凯撒>中一个占卜师有这样一句没有上下文的预言:"请小心'三月'中", 凯撒听后不知道这句话是何意思,于是说让这个占卜师继续做梦吧.结果在三月十五日,凯撒被密谋暗杀.类似的,今天的预测算法可以告诉你一个预言,但却无法提供合适的上下文,这让人难以做出进一步行动的决策. 另一个关于预测算法的例子是在最新的<复仇者联盟3>中,出现了一个人工智能合

python 数据分析算法（决策树）

决策树基于时间的各个判断条件,由各个节点组成,类似一颗树从树的顶端,然后分支,再分支,每个节点由响的因素组成决策树有两个阶段,构造和剪枝构造: 构造的过程就是选择什么属性作为节点构造,通常有三种节点 1. 根节点:就是树的最顶端,最开始那个节点 (选择哪些属性作为根节点) 2. 内部节点: 就是树中间的那些节点 (选择哪些属性作为子节点) 3. 叶节点: 就是树最底部的节点,也就是决策的结果(什么时候停止并得到目标状态,叶节点) 剪枝: 实现不需要太多的判断,同样可以得到不错的结果,防止过

大数据分析案例

部分数据来源于网络,如有侵权请告知. 一.大数据分析在商业上的应用 1.体育赛事预测世界杯期间,谷歌.百度.微软和高盛等公司都推出了比赛结果预测平台.百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%.现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控. “在百度对世界杯的预测中,我们一共考虑了团队实力.主场优势.最近表现.世界杯整体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联网,随后我们再利用一个由搜索专家设计的机

K-means矢量量化算法介绍

K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一. K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类.通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果.matlab中有kmeans聚类算法的函数可以调用,如[ldx,C,sumD,D]=kmeans(X,k)(详见matlab help kmeans).以下链接是一个用java写的聚类演示K-means demo. 对于该算法存在的缺点可以使用ISODATA(迭代自组织

这七种数据分析领域中最为人称道的降维方法

这七种数据分析领域中最为人称道的降维方法感谢王穆荣的投稿,转自数盟社区近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现.于此同时,这也推动了数据降维处理的应用.实际上,数据量有时过犹不及.有时在数据分析应用中大量的数据反而会产生更坏的性能. 最新的一个例子是采用 2009 KDD Challenge 大数据集来预测客户流失量. 该数据集维度达到 15000 维. 大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢.该项目的最重要的就是在

【转载】如何组建一支优秀的数据分析团队？

http://www.36dsj.com/archives/38744 Q:数据分析人员能做什么? A:从纷繁的数据里提炼出有价值的信息并给公司提供支持啊. Q:你怎么提炼啊? A:写程序采集啊,清洗啊,用一定的算法计算数据内部联系,根据业务做出判断啊…… Q:如果都是用已有的算法,这些事情为什么不能用现成的流程来做呢?或者为什么不能写成程序,让机器自己实现呢? A:呃………… 作为一名数据分析师,刚入行的时候跟人聊天聊成这样,非常常见也非常令人不爽.但我们数据分析师是不是仅能手工操作一些算法,

用Python做数据分析 | 启航

以前做数据分析,很多是用Oracle或者MySQL,通过SQL来完成查询和统计数据分析,但是随着数据量的增大,数据库也跟随着发展为NoSQL数据库,由于数据库及其底层技术架构的变化,数据分析算法也随着变得复杂,而Python则实现这一任务适用的语言和工具.比如: In [36]: for i in range(4): ...: for j in range(4): ...: if j > i: ...: break ...: print((i,y)) 这是一个打印矩阵数组的程序,如果用Pytho

【Yii系列】错误处理和日志系统

缘起跟随上一章的脚步,上一章中,我们主要讲解了在用户发起请求,解析请求,服务器反馈请求以及session的一些知识点,这过程中,难免会遇到一些问题,比方说数据库查询失败,用户输入导致脚本出错,网络问题等等突发情况,对于突发情况,做过软件的一般都知道,会有错误处理和日志去记录下这个过程,同样的,Yii也提供了类似的功能帮助我们去抓住错误,记录错误,并且对相应错误做出对应处理. 错误处理 Yii 内置了一个error handler错误处理器. 所有非致命PHP错误(如,警告,提示)会转换成可获取