数据挖掘-概念、取样方法研究

随着数据库技术的飞速发展和广泛使用电在数据库里电存储的数据越来越庞大门在数据挖掘的领域里电要使用科学的方式、方法降低挖掘算法的时间电使数据挖掘的效率更高门

1 数据的挖掘概念

数据库中的知识发现又称数据挖掘啕数据库领域研究和人工智能是目前的热点问题门数据挖掘就是从拥有大量数据的数据库中找出先前未知的、有着潜在价值的信息过程门数据挖掘是决策支持过程啕它墓于模式识别、人工智能、机器学习、数据库、可视化、统计学等技术啕自动分析企业数据进行推理电挖掘出潜在模式电帮助决策者调整策略啕作出正确决策口

发现具有潜在价值信息的过程啕包含三个步骤：第一是数据准备电第二是数据的挖掘啕第三是挖掘的数据结果表达和解释口数据挖掘可以与知识库或用户交互门

数据挖掘是在大量数据中找其规律啕准备数据、寻找规律和表达解释规律口准备数据就是从数据源中挑选需要的数据并合成用作数据挖掘的数据集：寻找规律就是从数据集中把它所含的规律找出来：挖掘数据结果表达和解释就是把找出的规律表示出来口

数据挖掘任务包括聚类分析、关联分析、特异群组分析、分类分析和演变分析等口

2 数据挖掘的特征和本质

按常规来说电 j夹义的观点认为常规数据分析区别于数据挖掘的关键点是电常规数据分析侧重于交叉报告、描述性统计、假设检验等电数据挖掘则侧重于预测、分类、聚类与关联等 4 类问题口广义的观点认为从数据库中挖掘的任何信息都叫做数据挖掘门这样看来电数据挖掘就是商业智能口如果从技术术语上说电数据挖掘指的是以前的数据经过清洗转换变成适合挖掘的数据集口数据挖掘就是在这神有着固定形式的数据集上完成了知识提炼啕用合适的知识模式做下一步分析决策工作口通过以上分析啕笔者把数据挖掘定义为：数据挖掘就是从数据集中挖掘和提炼知识的过程门

3 数据挖掘的取样方法

取样是一种成熟的统计技术啕己被研究了上百年电随机抽样技术更是如此门在数据管理领域里电关于随机抽样的有效性己有很多描述啕随机抽样能捕捉到数据基本特征的很小部分数据子集来代表总数据集电根据该样本集能获得相似的或近似的查询结果电这样的样本集还可以用于数据挖掘工作口近年来在很多领域中都采用了抽样技术啕并达得了非常不错的效果电这充分说明了抽样技术的应用越来越广泛流行门

抽样的方法与分类：数据项根据在抽样技术中被选中的数据是否相同电抽样方法可以被分为偏倚抽样和均匀抽样两种口在偏倚抽样中电不一样的元素入选的概率也可能不一样口而在均匀抽样中各个元素入选的概率是相同的口相同的抽样概率能以相同尺寸的抽样产生互动类同口均匀抽样经典的两种设计是电伯努利抽样和水库抽样啕这两种抽样方法是其他所有抽样方法的基础门伯努利抽样是

均匀抽样，它的主要特点是所用的时间短、操作简单门生成的均匀抽样及大小为 K啕如果很多个元素到达时电数据流中的元素会以 Kl N 的概率所选中电当样本集的大小超出了 K啕就会从中随机除去这个样本电各个元素的入选概率都是相同的门水库抽样方法是非常重要的随机均匀抽样方法啕是由原来的传统方法拓展到数据库领域门大小空间固定、时间复杂度为零啕更适合挖掘数据流的环境啕成功的抽样技术确保了抽样的质量门从提高抽样质量的角度上说电采取了三个类型的抽样策略：第一电渐进抽样啕渐进抽样就是先从一个小的抽样开始啕慢慢再加大抽样的抽样率或抽样尺寸啕直到抽样的正确性不随之改变为止：第二啕从实验样本集中获取数据集的特征假定或预评估啕在这样的基础上再进行抽样：第三啕为具体的应用抽取特定的数据特征啕而不是产生一个能适用于多种应用的取样集口

4 挖掘 SAS 数据的方法

SAS/EN 可实现数据集市和同数据仓库啕以及商务智能报表工具的无f逢集成门它有着数据抽样工具、数据获取工具、数据挖掘工具、数据筛算工具、数据挖掘过程、数据变量转换工具和数据挖掘评价工具门

第一电数据抽样门进行数据抽样时电要从企业大量的数据里找出要探索问题的样板数据子集电并不是调用全部数据口在数据抽样的过程中电一定要确保数据的质量啕保证抽样的数据的有效性、真实性、完整性和代表性口只有这样才能使以后的分析研究得出规律性的结果门

第二啕探索数据特征啕预处理分析和子处理分析门有了样本数据集后啕看它是不是达到了以前的设想要求啕趋势和规律是否明显啕是否有没有设想过的数据状态啕因素之间是否有关联性电这些内容是首先要探索的门分析探索数据的特征啕可视化操作是最理想的操作方法口

第三电技术选择和数据调整、问题明确化门想让解决的问题更加明确时电尽可能把解决的问题进一步量化口在问题量化后的基础上电就能按问题要求审视数据集了电针对问题的需求看它是不是适应啕必要时要对数据进行删除或增加电在数据挖掘过程会有新的认识啕生成或组合新的变量啕对状态的有效描述就得到充分体现门

5 结语

随着计算机科学的快速发展电数据挖掘己成为重要工具啕本文对数据挖掘的概念、特征和本质、取样方法等进行了详细分析啕希望为数据挖掘的计算流程优化作出一定的贡献口

时间： 2024-11-08 21:21:44

数据挖掘-概念、取样方法研究

数据挖掘-概念、取样方法研究的相关文章

【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿

【读书笔记-数据挖掘概念与技术】数据立方体技术

《BI那点儿事》数据挖掘的主要方法

基于随机森林的煤与瓦斯突出预测方法研究

迁移学习全面概述：从基本概念到相关研究

2015.03.10,学习,论文学习笔记-“水轮机压力脉动的混频幅值置信度分析方法研究”

基于MATLAB的多项式数据拟合方法研究-毕业论文

十四，教育知识图谱的概念模型与构建方法研究

递归函数的概念使用方法与实例