数据挖掘里的“降维”----从五阶魔方的玩法思考

上一周去听了宫老师的K-NN,及神经网络的算法课程。这一周本来准备深入研究一下,回来后,看到同事桌上的魔方,就开始还原了起来。实际上,从魔方的角度来思考我们数据挖掘里的一些算法,发现,另有一番收获。

先说魔方,实际上,从三阶往上来说,无论是四阶,五阶还是更高。其中的口诀很多,但是最根本的思想就是“降维”。就是把更高阶的魔方降到我们熟悉的低阶魔方,然后按照我们曾经的熟悉的方法来还原的。而对于数据挖掘,好像也是这样。魔方从高阶降维到三阶需要很长时间,而我们所需要挖掘的数据开始的数据准备及数据理解也是需要很大量的工作的。而所要建立的模型大部分就类似于我们经常玩的“三阶魔方”。把我们加工好的数据放入“三阶模型”里,就可以套用相应的算法公式来进行相应的分类。实际上,这两者有许多共同之处。

K-NN,K-MEANS这两个算法都是以K为中心值然后通过计算周围数值的平均值,来均方差来估算最大的可能。这一方面有点类似于我们如何在魔方中以一面的中心点开始如何先将一面还原,继而再去还原其他的面。里边的数学公式的推导是很繁杂。但是我们只要掌握住算法是做什么的,知道个大概就能够从原始的数据中找到那个相应的K值。

我们在用数学统计里很多的模型是要用到三维的向量空间坐标系,而我们实际的数据里有许多的维度。如何能够在我们图中来分出相应的参数,找到相应的坐标点,这是很重要的。比如说,在我们统计数据里,有省份,性别,投资类别这样的字符型数据,在三维的坐标中,也许我们用数值来表示更容易区分,而这里如何用数值来表达就很重要!性别好说,男可以为1,女可以为0,而省份,投资类别这因的数据,我们是人为指定1表示上海,2表示北京........这些的指定就不好说了。首先,人为指定有些麻烦,更况且这些指标是否影响到挖掘结果。这个我们无从得知!

再反过来看魔方的玩法,在高阶中(如五阶),在中心6面对齐的前提下,通过先对齐棱的方法,使其“降维”为三阶魔方。我们是否也可以用这样的思想,先将这些数值型字符归成大类,然后再在我们三维坐标上标出其实际坐标点,再去分析。

数据挖掘里,一直强调的是挖掘思维,而不是挖掘算法。但是挖掘算法又是我们无法避开的环节,有时也在想,对于一个不懂统计的人来说,如何来理解这些算法,也许并不那么重要,重要的是我们要如何去使用。在网站挖掘项目中,我们在统计用户的上网行为的时候,总是会有许多的参数来供我们分析,这些许多的参数就像那些高阶魔方一样,我们如何将之“降维”为我们所熟悉的三阶魔方,然后对我们的用户进行相应分类。这样,也许是网站运营最为关系的。

从营销的角度来思考我们挖掘算法,大道至简,用简单的方法去挖掘出我们要有的目标客户,进而有相关的精准营销。也许这才是我们数据挖掘的根本意义。这样,也便于向决策层讲明我们的技术实现过程。

数据挖掘里的“降维”----从五阶魔方的玩法思考

时间: 2024-10-27 12:18:04

数据挖掘里的“降维”----从五阶魔方的玩法思考的相关文章

三阶魔方快速还原法还原方法

1.问题描述 对于一个三阶魔方而言,有强迫症的我们总想把它迅速还原,但是越着急越做不出来.如何学会还原魔方呢?不要怕,我这么笨的人一天都学会了,这足以鼓舞很多的人.我也很乐意做一些鼓舞大家信心的事情,希望能够对您有所帮助. 2.解决方案 (1)总体声明 首先先声明一些转动方式及其标示.如图1所示. 图1 三阶魔方说明 (2)做一个底面 首先做一个还原好的面,然后进行第二步.此步骤不解释.如(2 第一层)所示.做好一个面,这一步不用记任何公式就可以很快达成,不再赘述. 图2 从前到后分别为 1底层

转:技能的反面 - 魔方和模仿

魔方的故事 大概是在我小学五年级的时候, 大家开始玩魔方,我们家也买了一个. 我和几个小孩折腾了一会, 没搞出什么名堂.我哥摆弄了好一会,  嘿! 弄出一面一样的颜色.后来我也琢磨出来怎么把一面颜色拼出来. 再后来我才知道魔方有一些模式和一些口诀, 按图索骥, 依口诀而行,  就会从一面玩到一面再加一层, 再到加两层, 然后把最上层四个角的颜色搞对, 然后再按照一两个口诀翻十几下, 六面就做好了!  我玩着玩着就把各种模式和口诀都掌握了. 上初中的时候, 我还在课间表演过, 赢得一些男同学的好评

读书笔记(第五周)之魔方的创新

读书笔记(第五周) 读<构建之法>之魔方的创新 在不苛求比喻精准的前提下,"魔方的创新" 这篇小故事写得确实有意思,也很能反映创新过程中一系列的问题.首先,通过几个大致的故事节点来总结一下情节的发展,再来逐一展开拓展的思考. 1· 在之前没人玩过魔方的王屋村,果冻首先掌握魔方的玩法,"口传心授,不立文字" 地教同学玩魔方并担任唯一的魔方代购,获得魔方大师的称号. 2· 小飞不甘示弱,复印魔方口诀,赠送口诀以刺激自己魔方的销售,魔方的口诀和销售不再受果冻垄

3&#215;3魔术方块转法

魔方的玩法 (视频教程+详细图解+3D动画) 出处:http://blog.sina.com.cn/s/blog_51a56c740100j7vq.html

企业管理三件套

企业管理离不开三件套:思想.经验.工具. 思想,管理者必须有思想.没有思想就没有激情,没有灵魂,队伍也很难凝聚起来. 管理者的思想从哪里来呢,好多种途径. 有的靠天启,在工作中摸索.探索.思索,有了独特体会,再总结提炼,成为一家之言.这样的大师级人才,可遇不可求. 绝大部分人的思想,源自学习.读书.听课.参加培训,都可以快速获取管理思想.前人栽的树已经成荫,后人为什么非要从树苗开始培育呢.拒绝管理思想,自绝于大师,自信一切都可以自悟,这样的管理者狂妄有余,成事不足. 思想仅仅是思想,光有思想远远

互联网视频通话的社交应用

Facebook和Twitter在视频分享上的成绩让不少人拍手称赞,中国的微信视频短片分享也得到很多人的喜爱,社交网络发展到今天,传统的文字.图片.语音等交互元素已经难以满足需要,能够呈现更多内容的视频变得炙手可热. 国内互联网企业在视频社交上的尝试并不迟于国外,在Vine和玩拍国外上线的同时,国内就相继出现了微视.美拍等同类产品.视频门户.聊天室.弹幕等在国内更是火极一时. 在国内新浪推出了短视频应用秒拍,腾讯推出了同类应用微拍,然而秒拍并未成为国内短视频应用的主流,微拍在腾讯内部取代了微博的

漫谈数据挖掘从入门到进阶

入门: 数据挖掘入门的书籍,中文的大体有这些: Jiawei Han的<数据挖掘概念与技术> Ian H. Witten / Eibe Frank的<数据挖掘 实用机器学习技术> Tom Mitchell的<机器学习> TOBY SEGARAN的<集体智慧编程> Anand Rajaraman的<大数据> Pang-Ning Tan的<数据挖掘导论> Matthew A. Russell的<社交网站的数据挖掘与分析> 很多

文本数据挖掘 Matrix67: The Aha Moments

转自:http://www.matrix67.com/blog/archives/5044 互联网时代的社会语言学:基于SNS的文本数据挖掘 今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享.感谢人人网提供的数据与工作环境,感谢赵继承博士.詹卫东老师的支持和建议.在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty . TEDxBeijing 提供的平台.本文已发表在了<程序员>杂志,分上下两部分刊于 201

魔方游戏实现(一):任意阶魔方的表示

 第一节 魔方的简单表示 对于任意N阶的魔方均有六个面(Surface),每个面有N*N个方块.在面向对象的程序设计里,我们可以把魔方(Cube).魔方的面(Surface)和面的方块(Block)均视作为对象. 魔方的定义:六个面存储在一个数组 ''' <summary> ''' 表示一个指定阶的魔方 ''' </summary> Public Class CubeClass ''' <summary> ''' 魔方阶数 ''' </summary> Pu