《BI那点儿事》三国人物智力分布状态分析

原文:《BI那点儿事》三国人物智力分布状态分析

献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解
数据分析基础概念:
数据分为“不可测量”的数据和“可测量”的数据。
不可测量的数据称为“分类数据”(Category Data或Categorical Data。),而可测量的数据称为“数值数据”(Numerical Data)。
组中值:Class Midpoint
次数:Frequency
相对次数:Relative Frequency
相对次数=所属各组的数据个数÷数据总数
次数分布表和直方图

组距分组掩盖了各组内间的数据分布状况,为反映各组数据的一般水平,我们通常用组中值来作为该组数据的一个代表值(class midpoint)。上限与下限之间的中点数值称为组中值,它是各组上下限数值的简单平均,即组中值=(下限+上限)/2。
若遇到开口组,则上开口组组中值=下限+邻组组距/2; 下开口组组中值=上限-邻组组距/2。
使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈现均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表就会有一定的误差。
建立数据分析环境:

SELECT  CASE WHEN 智力 > 0
                  AND 智力 < 10 THEN ‘0-9‘
             WHEN 智力 >= 10
                  AND 智力 < 20 THEN ‘10-19‘
             WHEN 智力 >= 20
                  AND 智力 < 30 THEN ‘20-29‘
             WHEN 智力 >= 30
                  AND 智力 < 40 THEN ‘30-39‘
             WHEN 智力 >= 40
                  AND 智力 < 50 THEN ‘40-49‘
             WHEN 智力 >= 50
                  AND 智力 < 60 THEN ‘50-59‘
             WHEN 智力 >= 60
                  AND 智力 < 70 THEN ‘60-69‘
             WHEN 智力 >= 70
                  AND 智力 < 80 THEN ‘70-79‘
             WHEN 智力 >= 80
                  AND 智力 < 90 THEN ‘80-89‘
             WHEN 智力 >= 90
                  AND 智力 <= 100 THEN ‘90-100‘
        END 分组 ,
        COUNT(*) 人数
FROM    FactSanguo11
GROUP BY CASE WHEN 智力 > 0
                   AND 智力 < 10 THEN ‘0-9‘
              WHEN 智力 >= 10
                   AND 智力 < 20 THEN ‘10-19‘
              WHEN 智力 >= 20
                   AND 智力 < 30 THEN ‘20-29‘
              WHEN 智力 >= 30
                   AND 智力 < 40 THEN ‘30-39‘
              WHEN 智力 >= 40
                   AND 智力 < 50 THEN ‘40-49‘
              WHEN 智力 >= 50
                   AND 智力 < 60 THEN ‘50-59‘
              WHEN 智力 >= 60
                   AND 智力 < 70 THEN ‘60-69‘
              WHEN 智力 >= 70
                   AND 智力 < 80 THEN ‘70-79‘
              WHEN 智力 >= 80
                   AND 智力 < 90 THEN ‘80-89‘
              WHEN 智力 >= 90
                   AND 智力 <= 100 THEN ‘90-100‘
         END
ORDER BY 分组

SELECT  *
FROM    FactSanguo11
WHERE   智力 >= 90
        AND 智力 <= 100
ORDER BY 智力 DESC

三国人物智力分布表


智力分组


组中值


人数


相对次数


0-9


5


12


0.02


10-19


14.5


19


0.03


20-29


25


33


0.05


30-39


34.5


70


0.10


40-49


44.5


72


0.11


50-59


54.5


76


0.11


60-69


64.5


129


0.19


70-79


74.5


173


0.26


80-89


84.5


65


0.10


90-100


95


21


0.03


合计


670


1.00

直方图:

如各位所见,上表中的组距是9。之所以选择9,并没有什么数学上的规定,而是全由本人主观决定的。没错,组距该设多少,完全依照分析者本身的判断。
以主观设定的组距而做成的人数分布表没有说服力,无法在他人面前公开,难道就没有按数学原理制定组距的方法吗?也许有人会产生这样的疑问。事实上,方法是有的。


以步骤2求出的组距为基础,做出如下的人数分布表:


智力分组


组中值


人数


相对次数


0-10


5


13


0.02


11-20


15


18


0.03


21-30


25


39


0.06


31-40


35


71


0.11


41-50


45


70


0.10


51-60


55


78


0.12


61-70


65


146


0.22


71-80


75


160


0.24


81-90


85


58


0.09


91-100


95


17


0.03


合计


670


1.02

直方图:

 

时间: 2024-11-11 07:49:30

《BI那点儿事》三国人物智力分布状态分析的相关文章

《BI那点儿事—数据的艺术》目录索引

转自:http://www.cnblogs.com/Bobby0322/p/4052495.html 原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之力! 本教程是由Bobby参考官方文档,综合市面相关书籍,经过充分的吸收消化,结合开发实践的而创

《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分

什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分.聚类分析的基本过程是怎样的?  选择聚类变量 在分析三国人物身份的时候,我们会根据一定的假设,尽可能选取对角色身份有影响的变量,这些变量一般包含与身份密切相关的统率.武力.智力.政治.魅力.特技.枪兵.戟兵.弩兵.骑兵.兵器.水军等.但是

《BI那点儿事》Microsoft 决策树算法——找出三国武将特性分布,献给广大的三国爱好者们

根据游戏<三国志11>武将数据,利用决策树分析,找出三国武将特性分布.其中变量包括统率.武力.智力.政治.魅力.身分.变量说明:统率:武将带兵出征时的部队防御力.统帅越高受到普通攻击与兵法攻击越少.武力:武将带兵出征时的部队攻击力,武力越高发动兵法或者普通攻击时对地方部队的伤害就越高:并且当发动单挑时双方武将武力值相差越少则成功率越高,同时武力也代表单挑时的武将攻击力.智力:武将发动部队计略时的效果与成功率,当武将智力高时则可以降低中计的几率:同时智力代表军师能力.政治:武将发展内政时的能力,

《BI那点儿事》Microsoft 神经网络算法

原文:<BI那点儿事>Microsoft 神经网络算法 Microsoft神经网络是迄今为止最强大.最复杂的算法.要想知道它有多复杂,请看SQL Server联机丛书对该算法的说明:“这个算法通过建立多层感知神经元网络,建立分类和回归挖掘模型.与Microsoft决策树算法类似,在给定了可预测属性的每个状态时, Microsoft神经网络算法计算输入属性每个可能状态的概率.然后可以用这些概率根据输入属性预测被预测属性的输出.”什么时候用这个算法呢?推荐在其他算法无法得出有意义的结果时再用,如提

《BI那点儿事》双变量的相关分析——相关系数

例如,“三国人物是否智力越高,政治就越高”,或是“是否武力越高,统率也越高:准备数据分析环境: SELECT * FROM FactSanguo11 WHERE 姓名 IN ( N'荀彧', N'荀攸', N'贾诩', N'程昱', N'郭嘉' ) 曹魏五谋臣,指荀彧.荀攸.贾诩.程昱.郭嘉五人.因为这五个人对曹魏势力的成立与巩固有巨大贡献,所以,把他们叫做曹魏五谋臣.“智力”和“政治”的散布图 做成图表后,我们就可以知道它们是否与双变量相关联.但是!关联性究竟有多高呢?很可惜!我们无法确切得知

《BI那点儿事》数据挖掘的主要方法

原文:<BI那点儿事>数据挖掘的主要方法 一.回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来.所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式).回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析:当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析.此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回

《BI那点儿事》浅析十三种常用的数据挖掘的技术

原文:<BI那点儿事>浅析十三种常用的数据挖掘的技术 一.前沿 数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式.在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等. 数据挖掘涉及的学科领域和技术很多,有

《BI那点儿事》数据流转换——逆透视转换

原文:<BI那点儿事>数据流转换--逆透视转换 逆透视转换将来自单个记录中多个列的值扩展为单个列中具有同样值的多个记录,使得非规范的数据集成为较规范的版本.例如,每个客户在列出客户名的数据集中各占一行,在该行的各列中显示购买的产品和数量.逆透视转换将数据集规范之后,客户购买的每种产品在该数据集中各占一行. 我们下一步是进行逆透视.与透视配置不同,逆透视配置相对简单. 你将需要选择透视字段,在这个例子中透视字段是Ham.Soda.Milk.Beer和Chips.透视字段名称将出现在标题为Prod

《BI那点儿事》数据流转换——数据转换

原文:<BI那点儿事>数据流转换--数据转换 数据转换执行类似于T-SQL中的函数CONVERT或CAST的功能.数据转换的编辑界面如图,选择需要转换的列,在DataType下拉列表中选择需要的数据类型.Output Alias栏内设置输出时使用的别名.