评价问题:理想解法:数据挖掘


课程  数据挖掘   2014-2015 学年 第 二  学期


评语:


内容完整,思路清晰,

格式正确,结构严谨


论述合理,算法正确,

分析恰当,术语准确


表达清晰,文字流畅,

用词准确,无错别字


理论联系实际,

无抄袭


总    分

注:对号:正确、完整、详细、合理

半对号:部分正确、不完整、不详细、基本合理

错号:错误、缺失、较差

抄袭一票否决

==========================================

(题目)  关联分析之理想解法模型——对教练进行排名

 要点:

1、 实验数据集可以从网上下载,也可以用以前做Clementine 用的数据集。若从网上下载,一定要注意下载地址,并对数据集做简要说明。

2、 可以用所学的任一种或多种分析方法(必须至少运用关联分析、聚类分析、分类算法其中一种),对数据集分析。

3、 挖掘过程要详细,要注意含挖掘目的,挖掘过程、算法,挖掘结果要以可视化方式展示,对挖掘结果要进行测试、分析。

4、 根据挖掘结果提出指导实践的思路、方法等。

5、 严禁抄袭。题目自拟。

6、 一定要用本设计报告模板,正文A4纸3-5页,双面打印。

 
目录

一.背景介绍 2

二.模型概述 2

三.模型算法 3

Step1 归一化重大比赛获奖指标 3

Step2 数据预处理 4

Step 3 构造加权矩阵 4

Step4 计算正理想解和负理想解 4

Step5 计算各方案到正理想解和负理想解之间的距离 4

Step6 计算各方案的综合指标值并排序 5

三. 模型求解 5

四. 参考 7

五. 算法代码 8

一.背景介绍

本文数据集来自美国http://www.ncaa.org/网站,完整数据在附件中。通过对这些数据进行挖掘我们可以得到一定的成果。基于关联分析的理想解法利用各大指标之间的关系,使用特定算法对数据进行处理最后得到一个排序值从而得出教练的排名。具体算法代码见附录。

我们对教练进行评比时要选取更多指标建立相对详细的评价模型。我们选取了执教年数、学员参赛场数、获胜率和重大比赛如:常规赛冠军次数、联盟锦标赛冠军次数、进入NCAA锦标赛初赛,进入NCCA四强的次数和获得NCCA冠军次数,但是这些重大比赛反映的是同一层意思,所以我们将其综合成一项指标,然后再将它与其余3个指标构成第二轮评价的指标体系。

数据格式如下:

二.模型概述

(1)先用贡献率作为权重,将常规赛冠军、联盟锦标赛冠军、NCCA锦标赛、NCCA四强、NCCA冠军,这五个指标综合成一个指标(命名为大型比赛获胜率);

(2)将执教年数、执教场次、获胜率、大型比赛获胜率,这四个指标用理想解法进行打分排名,筛选出前10名。

其中,理想解法中的权重用变异系数法确定。

而理想解法分为六个步骤:

(1)将四个指标标准化处理;

(2)将标准化后的指标进行加权求和;

(3)分别求出正理想解和负理想解;

(4)求出50组数据与正理想解与负理想解之间的距离;

(5)求综合评价指数;

(6)排名(选出前10名);

三.模型算法

以下为理想解法求出前五名的教练。


姓名


执教年龄


总执教

场次


胜率


其他因素归一化


负距离


正距离


排序


Mike Krzyzewski


39


1277


0.764


0.1450


0.1516


0.00747


0.9529


Jim Boeheim


38


1256


0.750


0.1381


0.1447


0.0110


0.9293


Dean Smith


36


1133


0.776


0.1452


0.1500


0.0117


0.9277


Adolph Rupp


41


1066


0.822


0.1346


0.1395


0.0151


0.9026


Lute Olson


34


1061


0.731


0.1332


0.1376


0.0190


0.8784

以下为结合层次分析等算法多轮筛选求出前十名的教练。

表  前10名教练


名次


1


2


3


4


5


教练


Mike Krzyzewski


Jim Boeheim


Dean Smith


Adolph Rupp


Lute Olson


综合评价指数


0.9529


0.9293


0.9277


0.9026


0.8784


名次


6


7


8


9


10


教练


Bob Knight


Jim Calhoun


Eddie Sutton


Denny Crum


Roy Williams


综合评价指数


0.8775


0.8619


0.8292


0.8109


0.7771

四.参考

[1] Frank R. Giordano, William P. Fox, Steven B. Horton, and Maurice D. Weir: A First Course in Mathematical Modeling, Fourth Edition.

[2] Matlab The Language of Technical Computing

http://www.mathworks.com/products/matlab/examples.html

 
 
五.算法代码

使用matlab软件进行数据处理,代码如下

%规范化处理 归一化-贡献值

%作者:陈锦瀚

%时间:2015.1.17

clc,

clear

load(‘second2.mat‘);%数据存放处

i=1;

j=[];

while(i<=2)

temp=var(a1(:,i:i));

j=[j,temp];

i=i+1;

end

temp=sum(j);   %均值暂存处

disp(‘方差‘);

disp(j);      %方差暂存处

j=j./temp;

disp(‘归一化‘);

disp(j);         %变异系数暂存处

k=1;

s=[];            %归一化后数据存放处

while(k<=50)

s=[s;dot(j,a1(k:k,:))];%加权求和

k=k+1;

end

disp(s)

%TOPSIS向量规范化处理:适合虚拟方案,欧式距离

%作者:陈锦瀚

%时间:2015.1.17

clc;

clear;

load(‘second2.mat‘);%加载数据b

result=[]; %预处理数据存放处

jresult=[] ;%加权数据存放处

idearesultz=[]; %正理想化解

idearesultf=[]; %负理想化解

d=b.^2;

for i=1:4

c=sqrt(sum(d(:,i:i)));

result(:,i:i)=b(:,i:i)./c;

end

%数据预处理结束

%变异系数开始

w=[];

for i=1:4

w=[w,std(result(:,i))/mean(result(:,i))];

end

temp=sum(w);

w=w./temp;

for i=1:4

jresult(:,i:i)=result(:,i:i).*w(1,i);

end

%加权处理完毕

for i=1:4

idearesultz=[idearesultz,max(jresult(:,i:i))];

idearesultf=[idearesultf,min(jresult(:,i:i))];

end

%理想解处理完毕

sz=[]; %正距离暂存处

szz=[];

sf=[];  %负距离暂存处

sff=[];

f=[];

for i=1:50

sz=[sz;(jresult(i:i,:)-idearesultz).^2];

szz=[szz;sqrt(sum(sz(i:i,:)))];

sf=[sf;(jresult(i:i,:)-idearesultf).^2];

sff=[sff;sqrt(sum(sf(i:i,:)))];

f=[f;sff(i)/(sff(i)+szz(i))];%排序值

end

时间: 2024-10-09 12:51:43

评价问题:理想解法:数据挖掘的相关文章

空间数据挖掘常用方法

问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用. 答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法等算法(出自丁信宙,仇环,苏晓庆. 基于云理论的缺损数据推理和预测 山东理工大学学报 2006年11月).除此以外还有老师课件上提到的聚类检测,决策树方法等. 以下对于一些常见模型做一简述: 1.空间分析方法 (Spatial Analysis Approach) 利用GIS的各种空间分析模型和

顶尖数据挖掘辅助教学套件(TipDM-T6)产品白皮书

      顶尖数据挖掘辅助教学套件 (TipDM-T6)           产  品  说  明  书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http://www.tipdm.com 邮箱: [email protected] 热线: 40068-40020 企业QQ:40068-40020 邮编: 510663 电话: (020)82039399 目  录 1                     引言..................

阿里、腾讯、京东、微软,各家算法&amp;数据挖掘岗位面经大起底!

阿里.腾讯.京东.微软,各家算法&数据挖掘岗位面经大起底! 2016-02-24 36大数据 36大数据 作者: 江少华 摘要: 从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团.阿里蚂蚁金服.京东.腾讯.今日头条.Growing IO.微软这7个公司的面试,同时参加了网易游戏.LinkedI In中国这2个公司的笔试,拿到比较优 … 从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团.阿里蚂蚁金服.京东.腾讯.今日头条.Growin

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,

程序员,如何从平庸走向理想?

程序员,如何从平庸走向理想? 作者: Web寻梦师  来源: 简书  发布时间: 2017-04-13 21:24  阅读: 67226 次  推荐: 369   原文链接   [收藏] 博主说:也许我们都不是天才的程序员,但至少我们都可以成为一个理想的程序员. 正文 我算是靠坑蒙拐骗进了程序员的门,然后一路狂奔.26岁之前几乎没有任何写代码的经验,研究生毕业却意外选择了一家不可能提供培训的初创公司,在每日担忧公司倒闭.害怕被炒鱿鱼以及同事冷落白眼的三重压力下逆流而上,一年半后离职,已是拥有50

数据挖掘与机器学习——weka应用技术与实践

第一章 weka介绍 1.1 weka简介 weka是怀卡托智分析环境(Waikato Environment for Knowledge Analysis)的英文缩写,官方网址为:<http://www.cs.waikato.ac.nz/ml/weka/>,在该网站可以免费下载可运行软件和代码,还可以获得说明文档.常见问题解答.数据集和其他文献等资源. 1.1.1 Weka的历史 团队宣称:我们的目标是要建立最先进的软件开发机器学习技术,并将其应用于解决现实世界的数据挖掘问题.目标:是机器学

理想的程序员

第1个一点点:专注眼下 见过太多心猿意马的程序员,我不得不把「专注眼下」作为天字第一条.他们往往有各式各样的小梦想,比如做个小茶农.做个小鹅贩.做产品.做销售.做投资,却被程序员的高薪或是没有转行的魄力「耽误」了,而因为不专注,他们不在意做好自己的本分,不在意锤炼自己的技能,不在意学习新兴的技术.不可否认,这世界上存在着伟大的产品(像乔老爷).伟大的销售(像埃里森).伟大的投资客(像彼得菲),而他们毫无例外都是程序员出身.可你听说过巴菲特评价盖茨的话么,比尔盖茨如果转行去卖狗,那他一定是全世界最

要做理想的程序员(好文)

原创作者:2shou    原文:http://kb.cnblogs.com/page/521320/ 我算是靠坑蒙拐骗进了程序员的门,然后一路狂奔.26 岁之前几乎没有任何写代码的经验,研究生毕业却意外选择了一家不可能提供培训的初创公司,在每日担忧公司倒闭.害怕被炒鱿鱼以及同事冷落白眼的三重压力下逆流而上,一年半后离职,已是拥有 500 万用户产品的后台主程.从前我对计算机技术心怀畏惧,认定技术高人一定有佛光笼罩,昼夜不息运键如飞日吐代码上万行.现在也算见过一些世面了,回首那段忐忑不安宛如初夜

程序员,如何从平庸走向理想?--转载

程序员,如何从平庸走向理想? 博主说:也许我们都不是天才的程序员,但至少我们都可以成为一个理想的程序员. 正文 我算是靠坑蒙拐骗进了程序员的门,然后一路狂奔.26 岁之前几乎没有任何写代码的经验,研究生毕业却意外选择了一家不可能提供培训的初创公司,在每日担忧公司倒闭.害怕被炒鱿鱼以及同事冷落白眼的三重压力下逆流而上,一年半后离职,已是拥有 500 万用户产品的后台主程.从前我对计算机技术心怀畏惧,认定技术高人一定有佛光笼罩,昼夜不息运键如飞日吐代码上万行.现在也算见过一些世面了,回首那段忐忑不安