一、数据挖掘
数据挖掘是运用计算机及信息技术,从大量的、不全然的数据集中获取隐含在当中的实用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式。
数据挖掘涉及的学科领域和方法非常多,有多种分类法。
(1)依据挖掘对象分:关系数据库、面向对象数据库、空间数据库、时序数据库、DNA 数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等;
(2)依据挖掘方法分:机器学习方法、统计方法、神经网络方法和数据库方法等;
a. 机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。
b.统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非參数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。
c. 神经网络方法可细分为:前向神经网络(BP 算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
(3)依据开採任务分:可分为关联规则、分类、聚类、时间序列预測模型发现和时序模式发现等。
a.关联规则:典型的关联规则发现算法是Apriori算法,该算法也称广度优先算法,是A.Agrawal和R.Srikandt于1994年提出的,它是眼下除AIS 算法、面向SQL的SETM 算法外差点儿全部频繁项集发现算法的核心,其基本思想是:假设一个项集不是频繁集,则其父集也不是频繁集,由此大大地降低了须要验证的项集的数目,在实际执行中它明显优于AIS 算法。
Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是从事务数据库、关系数据库和其它数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则能够分为两步:
1)找出全部频繁项集.这部分主要由后面介绍的Apriori算法来解决.
2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信度.
b.分类规则:数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法非常多,包含决策树方法、统计学方法、神经网络方法、近期邻居方法等等。当中,基于决策树的分类方法与其他的分类方法比較起来,具有速度较快、较easy转换成简单的而且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的精确度等长处。
c.数据聚类:其基本思想是:对数据进行分析的过程中,在考虑数据间的“距离”的同一时候,更側重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组,这样的分组基于例如以下的原理:最大的组内类似性与最小的组间类似性。
d. 时序模式:可用例如以下的样例描写叙述时序模式:一个顾客先租看影片“Star Wars”,然后租“Empire Strikes Back”,再租“Return of the Judi”,注意到这些租借事物的发生不一定是连着的。像这样一次事件的发生会导致某些事物的相继发生的事件模式,称为时序模式。
e.类似模式:时态或空间—时态的大量数据存在于计算机中,这些数据库样例包含:股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间—时态数据库中搜索类似模式的目的是发现和预測风险、因果关系及关联于特定模式的趋势。
二、Web挖掘
Web 网站上的数据有其自身的特点,基本的能够归纳为下面几点:
1 、数据量巨大,动态性极强;2、 异构数据库环境;3 、半结构化的数据结构。
Web 数据挖掘能够分为Web 内容挖掘,Web结构挖掘,Web 使用挖掘三类。Web 内容挖掘是从文档内容或其描写叙述中抽取实用信息的过程,Web 内容挖掘有两种策略:直接挖掘文档的内容和在其它工具搜索的基础上进行改进。採用第一种策略的有针对Web 的查询语言WebLOG,利用启示式规则来寻找个人主页信息的AHOY 等。採用另外一种策略的方法主要是对搜索引擎的查询结果进行进一步的处理, 得到更为精确和实用的信息。属于该类的有WebSQL ,及对搜索引擎的返回结果进行聚类的技术等。依据挖掘处理的数据能够将Web 内容挖掘分为文本挖掘和多媒体挖掘两个部分。Web 结构挖掘是从Web 组织结构和链接关系中推导知识。挖掘页面的结构和Web 结构,能够用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同一时候还能够用来指导页面採集工作,提高採集效率。Web 结构挖掘能够分为Web 文档内部结构挖掘和文档间的超链接结构挖掘。这方面的代表有Page Rank和CLEVER,此外,在多层次Web数据仓库( MLDB ) 中也利用了页面的链接结构。Web 使用挖掘是从server端记录的用户訪问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据能够帮助理解用户隐藏在数据中的行为模式,做出预測性分析,从而改进网站的结构或为用户提供个性化的服务。
Web 挖掘相关技术:
数据挖掘方法通常能够分为两类: 一类是建立在统计模型的基础上, 採用的技术有决策树、分类、聚类、关联规则等; 还有一类是建立一种以机器学习为主的人工智能模型,採用的方法有神经网络、自然法则计算方法等。
Web 内容挖掘:
1、Web 文本挖掘
Web 文本挖掘能够对Web 上的大量文档的集合的内容进行总结、分类、聚类、关联分析,以及利用Web 文档进行趋势预測。在Internet 上的文本数据通常是一组html 格式的文档集,要将这些文档转化成一种相似关系数据库中记录的规整且能反映文档内容特征的表示,一般採用文档特征向量,但眼下所採用的文档表示方法中,都存在一个弊端就是文档特征向量具有很大的维数,使得特征子集的选取成为Internet 上文本数据挖掘过程中的不可缺少的一个环节。在完毕文档特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分类、聚类、关联分析等来提取面向特定应用的知识模式,最后对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到曾经的某个环节,分析改进后进行新一轮的挖掘工作。。关联规则模式数据描写叙述型模式, 发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过下面3个步骤: ①连接数据, 做数据准备; ②给定最小支持度和最小可信度, 利用数据挖掘工具提供的算法发现关联规则; ③可视化显示、理解、评估关联规则。
眼下 Web 内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、反复数据消除、数据模式抽取、中间形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面,尤其是基于XML的上述专题研究。
对分类挖掘而言,在预处理阶段要做的事情就是把这个Web页面集合文本信息转化成一个二维的数据库表,当中每一列是一个特征,每一行为一个Web页面的特征集合。在文本学习中经常使用的方法是TF工DF向量表示法,它是一种文档的词集(bag-of-words)表示法,全部的词从文档中抽取出来,而不考虑词间的次序和文本的结构。构造这样的二维表的方法是:每一列为一个词,列集(特征集)为辞典中的全部有区分价值的词,所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息,这时,该页面中的全部词相应到列集(特征集)上。列集中的每个列(词),假设在该页面中不出现,则其值为0;假设出现k次.那么其值就为k。这样就能够表征出页面中词的频度。这样构造的二维表表示的是Web页面集合的词的统计信息,终于就能够採用Naive Bayesian方法或k-Nearest Neighbor方法进行分类挖掘。
WebSQL 是一个用于Web 页重构的查询语言,利用Web 文档的图树表示形式,可从在线的文档网站或导游指南中获取信息。而Ahoy则利用像搜索引擎一类的互联网服务来获取与个人有关的服务,利用试探法识别文档中显示该文档作为个人主页的句法特征。
分词
眼下已有非常多分词算法,如:正向最大匹配法(MM)、逆向最大匹配法(RMM)、逐词遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳匹配法等。近几年又提出了非常多新的方法旨在提高分词的精度和分词的速度,如:生成測试法通过词法ATN和语义ATN之间的相互作用来进行歧分决策,以提高分词的精确性;改进的MM分词算法採用正向增字最大匹配法和跳跃匹配法,结合词尾语义检查和归右原则以消除类型歧义;基于神经网络的分词方法尝试利用神经网络来处理歧分问题,但同一时候又引入一个问题:训练样本的选取,因为自然语言的复杂性,怎样选取训练样本还须要作深入的研究;结合直接匹配算法、后缀分词算法和词表结构支持首字Hash的方法,局部提高了速度,但不能进行标准的二分查找;支持首字Hash的近邻匹配算法利用最大增字匹配算法,并支持首字Hash和标准二分查找以提高分词速度。
分词的基本算法有: (1)基于词典与规则匹配法。基于词典与规则的方法应用词典匹配, 汉语词法或其他汉语语言知识进行分词, 这类方法简单、分词效率较高,但对词典的完备性、规则的一致性等要求比較高。匹配策略有: 最大匹配法、最小匹配法、逆向匹配法、增字或减字匹配法、双向扫描法。(2)标志法。如切分标志法、统计标引法。(3)词频统计法。基于统计的分词方法将汉语基于字和词的统计信息, 完备性较差。(4)语义语使用方法。如后缀分词法。眼下使用最多的是基于词库的分词方法。因为中文在分词时可能产生二义性, 如“计算机器”可分成“计算”“/ 机器”和“计算机”“/ 器”, 这样必须结合其他分分词方法, 如基于语法规则的分词法、基于朴素贝叶斯分词法等。在详细的分词过程中, 我们还能够将单词变型归并, 像同义词、近义词可进行归并, 如“因特网”和“万维网”可当成一个词条处理。
语义Web 是下一代的Web 技术,它赋予Web 以计算机可理解的语义信息。
在语义Web技术中,本体起着关键的数据。本体是人们对领域知识达成的共识,是对领域的形式化与结构化的描写叙述。本项目针对语义Web 眼下存在的问题,应用语义Web 技术,信息集成和信息管理的若干关键技术,从多个方面对语义Web 进行研究。
(1)语义信息集成。对本体的语义标注和本体集成方法进行研究,利用基于本体的语义标注和本体映射技术从异构的资源中抽取出实用信息,并通过映射方法集成多种信息源的的信息。
(2)语义查询。实现语义信息的多种查询方式,包含:本体的可视化导航查询,针对概念/实例/属性的查询,基于全文检索技术的查询,语义关系的查询。
(3)语义信息挖掘。语义信息的挖掘一直处在一个非常浅层的阶段,眼下的多数研究一直处在传统的文本信息挖掘。本项目的研究主要从本体实例聚类、本体分类,本体关联规则挖掘以及本体中关键词的抽取。这些技术是语义Web 的应用的基础,他们能够用来分析语义信息的趋势,语义数据的自己主动处理等。
(4)语义Web Service。通过系统定义的软件本体对Web Service 进行描写叙述,从而实现WebService 的评估、组装等功能。
(5)基于Peer to Peer 的语义信息管理。这个问题的核心思想是要通过集成已有的Peer to Peer框架实现语义挖掘平台在P2P 环境下的应用。
(6)算法解释。利用定义的基础数据结构对上述算法的运行过程进行log,从而轻松的实现用户-算法及开发-算法之间的交互。提供针对算法本身的更友好的接口。
2 、Web 多媒体挖掘
Web 多媒体挖掘与Web 文本挖掘的不同点就在于须要提取的特征不同。Web 多媒体挖掘须要提取的特征一般包含图像或视频的文件名称URL 、类型、键值表、颜色向量等。然后能够对这些特征进行挖掘工作。如关联分析发现类似“假设图像是‘大’并且与关键词‘草原’有关,那么它是绿色的概率是0. 8”的关联规则。当然也能够对多媒体进行分类、聚类等操作。多媒体数据挖掘的方法主要有:多媒体数据中的类似搜索,主要有两种多媒体标引和检索技术:基于描写叙述的检索系统和基于内容的检索系统;多媒体数据的多维分析,能够按传统的从关系数据中构造数据立方体的方法,设计和构造多媒体数据立方体;分类和预測分析,主要应用于天文学、地震学和地理科学的研究,决策树分类是最经常使用的方法;多媒体数据的关联规则挖掘,关联规则的挖掘主要包含下面三类规则:图像内容和非图像内容之间的关联、与空间关系无关的图像内容的关联、与空间关系有关的图像内容的关联。
3、特征提取
经典的文本表示模型是向量空间模型(VSM—Vector Space Model),由Salton 等人于60 年代末提出,并成功地应用于著名的SMART 文本检索系统。向量空间模型对文本进行简化表示,觉得特征之间是相互独立的而忽略其依赖性,将文档内容用它所包括的特征词来表示:D=(t1,t2,…,tN),当中tk 是文档D 的第k 个特征词,1 ≤ k ≤ N 。两个文档D1 和D2 之间内容的类似程度Sim(D1,D2)通过计算向量之间的类似性来度量。最经常使用的类似性度量方式是余弦距离。
除了向量空间模型之外,Stephen Robertson 和Spark Jones 等人提出的概率模型得到了人们的广泛认可。该模型综合考虑了词频、文档频率和文档长度等因素,把文档和用户兴趣(查询)依照一定的概率关系融合,形成了著名的OKAPI 公式。该模型在信息检索领域取得了成功。
降维就是自己主动从原始特征空间中提取出部分特征的过程,一般通过两种途径:一是依据对样本集的统计信息删除不包括不论什么信息的特征;二是将若干低级的特征合成一个新特征。眼下关于特征提取的方法非常多,如文档频率法(DF)、信息增益(IG)、互关联信息(MI)、 x2 统计法(CHI)、特征增强(TS)等。DF是指包括某一特征的文档数,TS 法通过统计特征在一组相近文档中出现的频率来预计特征的重要性,然而,人们在实际应用中发现,某些DF值或TS值非常低的特征反而是信息相关的,不能从特征空间中删去,因此这两种方法在某些情况下不可靠,MI的弱点是受特征的边缘概率的影响非常大,CHI和IG的使用效果较好。一般用的评估函数有几率比(Odds ratio) 、信息增益( Information Gain) 、期望交叉熵( Expected CrossEntropy) 、互信息( Mutual Information) 、词频( WordFrequency) 等。
(1)IG(Information Gain):即信息赢取。IG值代表了特征在训练集上的分布情况,它通过统计特征在各个类别中的出现次数来计算,公式例如以下:
当中 t 代表特征 ,ci代表第i个类别,m为类别个数,仅仅Pr (cI)代表类别cI的概率,Pr (cI|i) 代表在包括特征t的条件下类别ci的概率,Pr (cI|-t) 代表在不包括特征t的条件下类别cI的概率,Pr(t) 代表特征t出 现 的 概率,Pr (-t) 代表特征t不出现的概率。IG值越高表示该特征在训练集中的类别上分布越集中。IG方法提取IG值较高的特征,其基本思想为分布越集中的特征越重要。
(2) MI(Mutual Information):即互信息值,它通过计算特征t和类别c间 的相关性来完毕提取。计算公式为: 为方便计算,简化为: 当中N为训练集中包括的文本总数,A为t与c同一时候出现的次数,B为t出现而c不出现的次数,C为c出现而t不出现的次数。通过该公式就能够取得特征与各类别间的互信息值。为了能取得特征在数据集上的总体评价,有下面两种计算方法:
前 者代表 了 特 征 和 各类别的平均互信息值,后者则取特征与各类别互 信 息 值中的最大值。MI方法提取互信息值较高的特征,其基本思想为与类别相关性越高的特征越重要。
(3)CHI 具有和MI方法基本类似的思想,相同通过计算特征t和类别c间的依赖程度来完毕提取。但二者的计算细节不同,CHI作了很多其它地考虑 ,有种看法觉得CHI是一种“正规化”了的MI。CHI的计算公式例如以下: 当中N为训练集中包括的文本总数,A为t与c同一时候出现的次数,B为t出现而c未出现的次数,C为c出现而t未出现的次数,D为二者都未出现的次数。与MI相同,CHI也有平均值和最大值两种方法来取得特征的总体评价:
CHI 方 法 的基本思想也是与类别关系越紧密的特征重要性越高。
(4)DF (Document frequency):即文档频率,指训练集中包括该特征的文本总数。所谓文本包括特征是指这个特征在该文本中出现,忽略其在文本中的出现次数。DF方法提取DF值较高的特征,它的目的是去掉在训练集上出现次数过少的特征,保留出现达到一定次数、具有一定影响力的特征。在各个特征提取方法中,DF方法的计算是最简单的。
(5)WEE(Weight Evidence):即文本证据权,其计算公式例如以下: 当中,t是一个特征,m是类别的数量,ci代表第i个类别,代表类别ci的概率,Pr (cI|t)代表在包括特征t的条件下类别ci的概率,Pr(t)代表特征t出现的概率。
4、分类
眼下文本分类的方法非常多,如多元回归模型、K-邻近方法、神经网络法、贝叶斯方法、决策树法、支持向量机等,这些方法基本上能够分为两类:统计分类方法和基于机器学习的分类方法。支持向量机(SVM)是统计学习理论领域近几年才提出的新知识,眼下仍处于发展阶段,但就眼下的应用而言,SVM在非常多领域的运用效果都非常理想。
网页自己主动分类是Web内容挖掘的主要研究内容之中的一个,採用的主要技术是分本分类技术,这是由于文本是眼下Web内容的主体,而且对文本的处理较音频、视频的处理easy。文本分类首先要进行特征抽取。所谓特征是指一个词或词组。眼下英文分类算法大多以单词为特征,在分词的时候利用空格和其他一些标点符号作为分隔符,从而抽取出文档中出现的全部特征,全部抽取出来的特征称为全特征集。特征抽取完成后一般还要进行特征提取。特征提取是指从全特征集中提取一个子集的过程。提取出来的子集称为特征子集。依据John Pierre的理论,用来表示文本的特征理论上应具有例如以下特点;(1)数量上尽量少;(2)出 现频率适中;(3)冗余少;(4)噪音少;(5)与其所属类别语义相关;(6)含义尽量明白;从全特征集中提取特征子集时通常依据特征的权值进行取舍,权值的计算方 法有多种,比方信息赢取(Information Gain),互信息(Mutual Information)等。特征提取后就能够用特征子集来表示文本,然后就能够构造用不同分类方法用来分类。常见的分类模型有:(1)K一 近邻模型,(2)Rocchio模型,(3)贝叶斯模型,(4)神经网络模型,(5)决策树模型。眼下研究人员己经提出了很多文本分类方法,如向量空间法(VSM)、回归模型、K近邻法、贝叶斯概率方法、决策树、神经网络、在线学习、支持向量机等。
在完毕特征提取之后,我们就能够使用这些特征来表示一个文本。详细的表示方法因分类方法而异。每种分类模型都会採用自己的方法来表示一个文本,并将这样的表示方法纳入到自己的体系中去。全部的分类模型大体上都可分为训练和分类两个步骤。一般来说,训练例越多分类的精确度越有保证,但也并非越多越好。
(1) 基于TFIDF的Rocchio算法
Rocchio 算法来源于向量空间模型理论,向量空间模型(Vector space model)的基本思想为採用向量来表示一个文本,之后的处理过程就能够转化为空间中向量的运算。基于TFIDF的Rocchio是这样的思想的一种实现方法,当中文本以一个N维向量来表示,向量维数N即特征数,向量分量是特征的某种权重表示,该权值的计算方法称为TFIDF方法,过程例如以下:
通过 TFIDF方法首先将训练集中的文本表示为向量,然后生成类别特征向量(即能够用来代表一个类别的向量)。类别特征向量取值为该类中全部文本向量的平均值。Rocchio算法训练的过程事实上就是建立类别特征向量的过程。分类的时候,给定一个未知文本,先生成该文本的向量,然后计算该向量与各类别特征向量的类似度,最后将该文本分到与其最类似的类别中去。向量的类似度度量方法有两种:(以x,y代表向量,xi,yi代表向量分量):
整体来看 ,Rocchio算法简单易行,执行速度尤其是分类速度较快。
(2) 朴素贝叶斯模型
贝叶斯分类是一种统计学分类方法,它基于贝叶斯定理,能够用来预測类成员关系的可能性,给出文本属于某特定类别的概率。分类时依据预測结果将该样木分到概率最高的类别中去就可以。假定有m个类c1,c2,c3…Cm,给定未知文本X,贝叶斯分类将给出条件X下具有最高后验概率的类别,即最大化P(Ci|X)依据贝叶斯定理可得:
显而易见,P(X)对于全部类是个常数,则仅仅需最大化P(X|Ci )P(Ci)就可以。P(ci)能够依据训练集中的类别分布来计算,即 ,当中|Ci|为类别Ci包括的文本数,|D|为训练集中的文本总数。在一个具有很多属性的事例中,计算P(X|Ci)的开销会很大,为了减少这样的开销而引出了称为类条件独立的朴素假定:假定文档的一个属性对于分类的影响独立于其它属性,即文档的属性之间是不相关的。这就是朴素贝叶斯(Na?ve Bayes)的由来。这样就能够简单的以各个属性在类别Ci上出现的概率来推算P(X|Ci)。通常使用拉普拉斯预计(Laplacean prior)来推算。又因实现细节的不同有两种朴素贝叶斯模型,多元模型(Multi-variate Bernoulli Model)仅仅考虑了特征在文本中是否出现(出现记为1,否则记为。),多项式模型(Multinomial Model)考虑了特征在文本中的出现次数:
朴素贝叶斯分类模型训练的过程事实上就是统计每个特征在各类中出现规律的过程。从理论上讲,贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和精确度。
(3) 决策树
决策树(Decision Tree)是一个相似于流程图的树结构,当中每一个节点代表一个属性上的測试,每一个分支代表一个測试输出,最后的叶结点代表类别。决策树方便改写为形如if-then的分类规则,易于理解。决策树的核心算法是一种贪心算法,它以自顶向下的方式在训练集的基础上构造决策树,之后取未知文本的属性在决策树上測试,路径由根结点到叶结点,从而得到该文本的所属类别。决策树的算法有C4.5(发展于ID3),CART,CHAID等,他们的差别在于构造决策树与树枝剪除的算法细节不同。决策树能够非常好的抵抗噪声。最大的缺点在于不适应大规模的数据集,此种情况下决策树的构造会变得效率低下。
(4) 神经网络
神经网 (Neural Network)的学习结果为目标函数,根据这个目标函数的输出作为分类的根据。输入即为文本在各个特征上的各分量值。神经网络实际上是一组连接的输入/输出单元,当中每个连接都具有一定的权值。通过训练集来训练的过程就是调整这些权值的过程,使得神经网络能够正确的预測类别。神经网络的训练是针对训练例逐个进行的,所以神经网络的训练集能够随时加入?,不须要又一次进行训练就可完毕网络的调整。同一时候有实验结果表明,在训练例过少的情况下,神经网络的分类准确率较低。由于可通过训练来针对特征取一定的合适的权值,神经网络能够较好地抵御噪音的干扰。
(5) K近邻
K近邻分类(K-nearest neighbor)的思想也来源于向量空间模型,相同採用将文本转化为向量的思想。KNN是一种基于类比的分类方法。在训练的过程中KNN会生成全部训练例的特征向量,并将其保存下来。给定一个未知文本,首先生成它的特征向量,之后KNN会搜索全部的训练例,通过向量类似度比較从中找出K个最接近的训练例,然后将未知文本分到这K个近邻中最普遍的类别中去。类似度能够通过欧几里德距离或向量间夹角来度量。依据经验x一般取45。KNN是一种懒散的方法,即它没有学习过程,仅仅是存放全部的训练例,直到接到未知文本的时候才建立分类。ON的训练过程较快,并且能够随时加入?或更新训练例来调整。但它分类的开销会非常大,由于须要非常大的空间来保存训练例,并且分类效率非常差。有看法觉得在小数据集上KNN的表现优异。
(6) SVM方法
SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,依据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别随意样本的能力)之间寻求最佳折中,以期获得较好的综合能力。SVM专门针对有限样本,其目标是得到现有信息下的最优解而不不过样本数趋于无穷大时的最优值(KNN和Naive Bayes方法基于样本数趋于无穷大),从理论上说,SVM得到的将是全局最长处,从而攻克了在神经网络方法中无法避免的局部极值问题。此外,SVM将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的推广能力,同一时候它巧妙地攻克了维数问题,其算法复杂度与样本维数无关。
5、网页分类方法
一般来说,网页中对于分类有作用的部分首先是核心文本,即网页中关于网页内容的文本部分。其次是结构信息和超链接信息,再其次是多媒体信息。多媒体信息的识别涉及图像检索、语音识别等技术,且眼下没有较好的结果,因此非常少被考虑。我们进行网页分类的基本思路是:
(1 ) 利用自行研制的网页解析器分离出目标网页的核心纯文本。
(2 ) 利用自行研制的分类系统TCS对目标网页的核心纯文本部分进行分词、特征提取等操作,并产生目标网页的初始特征向量。
(3) 依据特征向量进行分类,确定目标网页的类别。
通常採用下面五种标准在不同的方面来评价一个分类器: (1) 精 度 (precision) (2)查全率(recall) (3) F标准综合了精度和查全率,将两者赋予相同的重要性来考虑,即 ,当中r代表查全率,p代表精度。这三 个 标 准都仅仅用于分类器在单个类别上分类精确度的评价。(4)宏观平均值(macro-averaged score) (5)微观平均值(micro-averaged score)。
Web 结构挖掘:
整个Web 空间中,实用知识不仅包括在Web页面内容中, 也包括在Web 页间超链接结构与Web 页面结构之中。挖掘Web 结构的目的是发现页面的结构和Web 间的结构,在此基础上对页面进行分类和聚类,从而找到权威页面,这样的方法能够用来改进搜索引擎。
在搜索引擎中存贮了数以亿计的页面,非常easy得到它们的链接结构。须要做到的是寻找一种好的利用链接结构来评价页面重要性的方法。Page Rank 的基本思想是: 一个页面被多次引用,则这个页面非常可能是重要的;一个页面虽然没有被多次引用,但被一个重要页面引用,该页面也可能是非常重要的;一个页面的重要性被均分并被传递到它所引用的页面。在Page Rank方法中,Page Rank被定义为: 设u为一个Web页。Fu为全部的u指向的页面的集合,Bu为全部的指向u的页面的集合。设Nu={Fu}为从u发出的链接的个数,C(C1)为一个归一化的因子(因此全部页面的总的Page Rank为一个常数),那么u页面的Page Rank被定义为(简化的版本号): 即一 个 页 面的PageRank被分配到全部它所指向的页面:每个页面求和全部指向它的链接所带来的PageRank得到它的新的PageRank。该公式是一个递归公式,在计算时能够从不论什么一个页面開始,重复计算直到其收敛。对于 搜 索 引擎的键值搜索结果来说,PageRank是一个好的评价结果的方法,查询的结果能够依照PageRank从大到小依次排列。
从 we b结 构挖掘的现状来看,纯粹的网络结构挖掘研究非常少,多数是和其他web挖掘形式结合起来。基本的研究集中在网络虚拟视图生成与网络导航、信息分类与索引结构重组、文本分类、文本重要性确定等几个方面。
关键页/ 权威页(Hub/ Authority) 方法
页面的超链接关系十分复杂, 比如: 有的链接是为了导航, 因此不能简单觉得超链接即是引用关系; 此外因为商业的须要,非常少有页面会把其竞争对手的页面作为链接。正是因为超链接结构中存在着以上的缺陷, 出现了关键页/ 权威页方法。关键页/ 权威页方法的思想是: Web 上存在着一种重要的页面。所谓关键页指的是自身不一定为多个页面所链接, 可是它的页面上存在着就某个专业领域而言最重要的网站链接。对于这样的关键页, 它起到了隐含说明其它Web文档页面重要性的作用。一个权威页应当是被多个关键页所链接的, 而一个关键页应当包括非常多权威页的链接。将关键页与权威页的这样的联系依照算法计算出来, 就是关键页/ 权威页方法的主要思想。
HITS和Page Rank、以及在链接结构中添加?了Web内容信息的HITS改进算法等,主要用于模拟Web网站的拓扑结构,计算Web页面的等级和Web页面之间的关联度,典型的样例是Clever System和Google.
Web 使用挖掘:
Web 使用挖掘又叫Web 使用记录挖掘,是指通过挖掘Web 日志记录来发现用户訪问Web 页面的模式。能够通过分析和研究Web 日志记录中的规律,来识别电子商务的潜在客户;能够用基于扩展有向树模型来识别用户浏览模式,从而进行Web 日志挖掘;能够根据用户訪问Web 的记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预測的根据,从而为用户预取一些Web 页面,加快用户获取页面的速度。Web 日志挖掘过程一般分为3 个阶段: 预处理阶段、挖掘算法实施阶段、模式分析阶段。Web server日志记录了用户訪问本网站的信息,当中包含IP 地址、请求时间、方法、被请求文件的URL 、返回码、传输字节数、引用页的URL 和代理等信息。这些信息中有的对Web 挖掘并没有作用,因此要进
行数据预处理。预处理包含数据净化、用户识别、事务识别等过程。通过对Web 日志预处理后,就能够依据详细的分析需求选择訪问模式发现的技术,如路径分析、关联分析、时序模式识别以及分类和聚类技术等。模式挖掘出来以后还要进行分析,使之得到非常好的利用。
经常使用有两种方法发现用户使用记录信息。一种方法是通过对日志文件进行分析, 包含两种方式, 一是訪问前先进行预处理, 即将日志数据映射为关系表并採用对应的数据挖掘技术, 如关联规则或聚类技术来訪问日志数据, 二是对日志数据进行直接訪问以获取用户的导航信息; 另一种是通过对用户点击事件的搜集和分析发现用户导航行为。从研究目标的角度看, 已有的基于Web server日志数据的研究大致能够分为3 类: ①以分析系统性能为目标; ②以改进系统设计为目标; ③以理解用户意图为目标。因为各目标针对的功能不同, 採取的主要技术也不同。用户使用记录的挖掘通常要经过以下3 个步骤: ①数据预处理阶段。这是使用记录信息挖掘最关键的阶段, 数据预处理包含: 关于用户使用记录的预处理、关于内容预处理和结构的预处理; ②模式识别阶段。该阶段採用的方法包含: 统计法、机器学习和模式识别等方法。实现算法能够是: 统计分析、聚类、分类、关联规则、序列模式识别等; ③模式分析阶段。该阶段的任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式。详细的实现方法要依详细採用Web 挖掘技术而定,通常採用的方法有两种: 一种採用SQL 查询语句进行分析; 第二种将数据导人多维数据立方体中, 而后利用OLA P 工具进行分析并提供可视化的结构输出。对挖掘用户使用记录的研究早期多採用的是统计的方法, 当用户通过浏览器对Web 网站进行訪问时, 建立统计模型对用户訪问模式进行多种简单的统计, 如频繁訪问页、单位事件訪问数、訪问数据量随时间分布图等。早期使用的方法为以广度优先算法为主的统计模型, 另一种启示式的HPG(hypertext probabilistic grammar) 模型用于用户导航行为的发现, 它也是一种基于统计的方法, 因为HPG 模型与k 阶马尔可夫模型相当, 所以近来也有人提出用马尔可夫模型挖掘用户使用记录。
Web日志的挖掘的方法能够分为 (1)以JiaWei Han为代表的基于数据立方体(data cube)的方法:将Web 日志保存为数据立方体,然后在其上进行数据挖掘和OLAP操作;(2)以
Ming-Syan Chen为代表的基于Web 事物的方法:他们首先提出了最大向前引用序列(MFR)的概念,用MFR将用户会话切割成一系列的的事务,然后採用与关联规则类似的方法挖掘频繁浏览路径。
Web 行为挖掘在电子商务中得到了广泛的应用, 在对事务进行了划分后, 就能够依据详细的分析需求选择訪问模式发现的技术(路径分析、关联、规则挖掘、时序模式以及聚类和分类技术等)
Web 使用挖掘中的模式分析,主要是为了在模式发现算法找到的模式集合中发现有趣模式。开发各种Web 分析技术和工具,可辅助分析人员加深理解并使各种挖掘方法得到的模式获得充分利用。如Webwiz (pitkow) 系统可将www 的訪问模式可视化;Webminer则採用类SQL 语言的知识查询机制;另外也能够利用存储Web 使用数据的数据仓库,採用OLAP 方法发现数据中的特定模式。
6、Web 数据挖掘的四个步骤:
1、 查找资源: 任务是从目标W e b文档中得到数据。 2、 信息选择和预处理: 任务是从取得的W e b 资源中剔除无用信息和将信息进行必要的整理。3 、模式发现: 自己主动进行模式发现。能够在同一个网站内部或在多个网站之间进行。4、模式分析: 验证、解释上一步骤产生的模式。
7、Web 挖掘在Internet 上有很广泛的应用,比較常见的有:
(1) 帮助寻找用户感兴趣的新闻或其它信息以在Web 网站中提供个性化服务,吸引很多其它用户。
(2) 在搜索引擎上对文档进行自己主动分类从而减少在搜索引擎上为组织整理Internet 文档所需消耗的人力资源,也能够对Web 页面进行排序,改进搜索引擎。
(3) Web 日志挖掘在电子商务领域有非常广阔的应用前景,如发现顾客的购买习惯和浏览兴趣所在,有针对性调整销售模式,提高业务量。
8、通常Web挖掘能够分为3个子任务:资源发现、信息提取、概括。
·资源发现:是指从Web上搜索可用的信息;
·信息提取:是从已经发现的资源中提取出实用的信息。对于文本信息而言,不仅要考虑文本内容,并且也要考虑文本的结构;
·概括:是对Web信息自学习的过程,通过学习抽取一定的规则。
一般来说,Web挖掘的数据来源途径有两个:搜索引擎的结果集和Web上的在线信息。这两种方式各有所长,须要视详细的应用而定。眼下,已经有几种资源发现模型广泛应用于Internet上:文件夹/浏览模型(WAIS and Gopher)、检索模型(Archie and AltaVista)、超立方体(Yahoo and Excite)。很多资源发现工具大都採用了基于Robot的检索模型,这样的方法扫描Web上的全部文档,并建立索引,但它同一时候也将一些不相关的信息和过时的信息包括进来。
9、Web挖掘的发展方向:
眼下,在国内外Web 挖掘的研究处于刚起步阶段,是前沿性的研究领域。将来几个很实用的研究方向是:
(1)Web 数据挖掘中内在机理的研究;
(2)Web 知识库(模式库)的动态维护、更新,各种知识和模式的融合、提升,以及知识的评价综合方法;
(3)半结构、非结构化的文本数据、图形图像数据、多媒体数据的高效挖掘算法;
(4)Web数据挖掘算法在海量数据挖掘时的适应性和时效性;
(5)基于Web挖掘的智能搜索引擎的研究;
(6)智能网站服务个性化和性能最优化的研究;
(7)关联规则和序列模式在构造自组织网站的研究;
(8)分类在电子商务市场智能提取中的研究。
10、研究意义和方向:
路径模式挖掘
在Web中,文档通过超链连接便于用户浏览,用户为寻找信息常常通过超链从一个页面跳到还有一个页面。捕捉用户浏览路径称为Path analysis。理解用户浏览路径有助于改进系统设计,并且有助于作出更好的市场决策,比如在适当的页面出添加?广告.
Web中的智能查询
数字 时代 的图书馆并非一个有组织的信息仓库,而更象一个又一个杂乱无章的信息仓库,Web中的智能查询包含下面三个方面:1)资源发现:重点是自己主动生成可查找的索引。2)信息抽取:发现了资源后,下一个任务就是进行信息的自己主动抽取。3)信息归纳:利用分类技术可自己主动组织和管理数据,也能够发现用户感兴趣的模式。
Web智能工具
We b上 的 用户须要借助与软件系统来抽取、定位和管理Web文档,才干跟上信息的改变速度。这样的软件系统叫做Web工具.现有的Web工具缺乏识别和使用深层语义的能力,查询语言描写叙述能力有限。新一代 的 智能Web工具,利用智能Agent帮助用户发现新的信息。它能够自己主动地获取用户的兴趣主题,发现用户的浏览模式和信息资源的改动模式。能更有效地利用网络资源,将多个用户的查询要求聚成组,降低查询次数。将抽取的文档及其全文索引保存在数据库中,并发现各种实用的模式。
提高网络响应速度
传统 解 决 网络响应速度慢的途径,一般都基于client:如优化传输,降低堵塞;依据预測,预先传输某些页面。在server端利用关联规则挖掘,不仅能够提高网络的响应速度并且能够有效地调度网络代理的缓存。当用户浏览某个页面时,网络代理可依据关联规则预先下载与该页面相关联的页面,即用户非常可能訪问到的页面,从而提高网络的响应速度,由于关联规则是基于统计规律的,反映了大多数用户的兴趣。
11、基于Web挖掘的个性化技术的发展
(1) 与人工智能技术的结合
个性化系统领域的很多问题终于都可归结到机器学习、知识发现等问题上。用户建模过程用通常都应用到代理和多代理技术。因此人工智能技术与Web挖掘技术的结合将会促进Web个性化系统的飞速发展。
(2) 与交互式多媒体Web技术的结合
随着下一代Internet技术的飞速发展与应用,未来的Web的将是多媒体的世界。Web个性化技术和Web多媒体系统结合出现了交互式个性化多媒体Web系统。支持海量多媒体数据流的内容挖掘将成为Web挖掘技术的基本功能之中的一个。因为这样的基于内容的交互式个性化多媒体Web系统更能满足用户须要,因此也将成为Web个性化系统的发展方向之中的一个。
(3) 与数据库等技术的结合
12、数据挖掘和知识发现的发展方向:
1、挖掘算法的效率和可扩放性。眼下数据库数据量大,维数高,使得数据挖掘的搜索空间增大,发现知识的盲目性提高。怎样充分利用领域的知识,剔除与发现任务无关的数据,有效地减少问题的维数,设计出高效率的知识发现算法是下一步发展的重点。
2、数据的时序性。在应用领域的数据库中,数据在不断地更新,随着时间的推移,原先发现的知识将不再实用,我们须要随时间逐步修正发现模式来指导新的发现过程。
3、和其他系统的集成。知识发现系统应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多相技术集成的系统。
4、交互性。能够利用贝叶斯确定数据的可能性及其分布来利用曾经的知识,再就是利用演绎数据库本身的演绎能力发现知识,并用于指导知识发现的过程。
5、发现模式的精炼。能够利用领域知识进一步提炼发现模式,从中提取实用的知识。
6、互联网上知识的发现。WWW正日益普及,从中能够找到非常多新的知识,已有一些资源发现工具来发现含有keyword的文本,但对在WWW上发现知识的研究不多。加拿大的HAN等人提出利用多层次结构化的方法,通过对原始数据的一般化,构造出多层次的数据库。比如可将WWW上的图象描写叙述而不是图像本身存储在高层数据库中。如今的问题是怎样从复杂的数据(比如多媒体数据)中提取实用的信息,对多层数据库的维护,怎样处理数据的异类性和自主性等等。
13、文本挖掘面临很多新的研究课题:
( 1) 文本挖掘算法的可扩展性问题Internet 的发展, 电子商务和数字图书馆的兴起和广泛应用, 永久存储设备价格的不断减少, 全部这些都使得各单位储存的文本信息规模空前庞大。要对如此之大的文本集合进行处理, 必须有高速高效的文本挖掘算法。
( 2) 文本表示文本挖掘处理的是自然语言表示的文本, 是无结构或半结构化数据, 缺乏计算机可理解的含义, 在进行文本挖掘之前,须要对文本进行预处理及特征提取, 将其表示为计算机可读的一种中间形式。眼下, 尽管自然语言处理领域的研究已取得较大进展, 但还没有一种可以全然表示文本语义的中间形式。对于不同的挖掘目的, 须要使用不同复杂度的中间表示形式。对于细粒度的、领域特定的知识发现任务, 须要进行语义分析, 以得到足够丰富的表示, 抓住文本中对象或概念之间的关系。可是语义分析计算量大, 怎样更高速地进行语义分析而且对于大文本集合具有可扩展性是一个挑战性的问题。
( 3) 跨语言问题因为自然语言的多样性, 各种语言各有其特点,在一种语言中有效的文本挖掘功能却非常可能不适用于其他语言, 尤其是印欧语系语言与汉语之间。而且随着经济的全球化, 待处理的文本集合中可能存在多种语言写成的文本, 因此, 文本挖掘功能要考虑到多种语言之间的语义转换。
( 4) 算法的选择面对多种多样的文本挖掘算法, 不同算法各有其特点, 怎样从中选择一个合适的算法是一个尚待研究的问题。由于作为一般用户来说, 他们非常难搞懂每一个算法的原理和要求。
( 5) 算法执行中參数的设定非常多算法执行时须要用户设定參数, 有些參数的含义较难理解, 因而也非常难正确设定。怎样让算法自己主动地选择相对较好的參数值, 而且在算法执行的过程中自行调节參数的取值, 是非常多算法是否能被广大使用的一个关键问题。
( 6) 模式的理解和可视化显示文本挖掘算法所发现的知识模式形式多样。提高这些模式的可理解性也是研究者们不得不面对的问题。提高可理解性的解决方法通常包含以图形方式显示结果, 提供相对少量的规则, 或者生成自然语言以及利用可视化技术等。而眼下的文本挖掘系统, 其面对的用户大多是有经验的专家, 一般用户非常难使用。
( 7) 领域的知识集成当前的文本挖掘系统大都未採用领域知识。领域知识非常实用, 它能够提高文本分析效率, 有助于取得更紧凑的表示形式等, 因此, 能够考虑把领域知识集成到文本挖掘系统中。
( 8) 中文文本分词技术在印欧语系语言中, 词与词之间有空格作为固定的分隔符, 因此非常easy进行分词。而在中文中, 词与词之间没有分隔符, 一个句子是由一串连续的汉字组成, 加之汉语中的词具有不同的长度, 同样的字可出如今很多不同的词中, 还有很多词由单个字组成, 这使得对中文文本进行正确分词面临较多挑战。
虽然文本挖掘领域还存在很多亟待解决的问题, 可是在需求的强烈推动下, 很多计算机厂商纷纷推出文本挖掘软件, 典型的应用领域包含将文本挖掘应用于站点管理, 信息分流和过滤; 应用于市场管理,质量管理和顾客关系管理以及利用文本挖掘技术发现的知识引导投资的方向, 预測股票行情等。这些成功的案例都已经给很多人带来了可观的经济利润。
14、搜索结果处理
对搜索引擎返回的结果进行挖掘可提供给用户更为准确的查询结果。如WebSQL 系统訪问搜索引擎获取文档,并从文档内部採集URL 标题、内容类型、内容长度、改动日期及链接等信息。而类SQL声明式语言则提出了从搜索结果中获取相关文档的能力。
基于加权统计的Web搜索结果挖掘实现智能元搜索引擎的结果去杂和排序。
个性化服务系统依据其所採用的信息推荐技术能够分为两种:基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。基于规则的系统同意系统管理员依据用户的静态特征和动态属性来制定规则,一个规则本质上是一个If-Then语句,规则决定了在不同的情况下怎样提供不同的服务。基于规则的系统其长处是简单、直接,缺点是规则质量非常难保证,并且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。基于内容过滤的系统利用资源与用户兴趣的类似性来过滤信息。基于内容过滤的系统其长处是简单、有效,缺点是难以区分资源内容的品质和风格,并且不能为用户发现新的感兴趣的资源,仅仅能发现和用户己有兴趣类似的资源。协作过滤系统利用用户之间的类似性来过滤信息,基于协作过滤系统的长处是能为用户发现新的感兴趣的信息,缺点是存在两个非常难解决的问题,一个是稀疏性,亦即在系统使用初期,因为系统资源还未获得足够多的评价,系统非常难利用这些评价来发现类似的用户。另一个是可扩展性,亦即随着系统用户和资源的增多,系统的性能会越来越低。另一些个性化服务系统同一时候採用了基于内容过滤和协作过滤这两种技术结合这两种过滤技术能够克服各自的一些缺点,为了克服协作过滤的稀疏性问题,能够利用用户浏览过的资源内容预期用户对其它资源的评价,这样能够添加?资源评价的密度,利用这些评价再进行协作过滤,从而提高协作过滤的性能。
网页推荐算法
假定 网页集为I={},当前滑动窗体W={pl,p2,... pm, |W|=m。从Web日志中挖掘的关联规则集为R={X=>Y|X,Y属于I且|Y|=1},如果客户本次訪问的网页序列为<pl,..., pn>,当中pi是一个URL,随意两个URL都互不同样。设挖掘出的关联规则集为R={X->Y, s},活动窗体的大小为s,活动窗体为:W=<pm,…, pn >,当中(n-m)=s ,那么推荐算法的原理为:从R中查找这种规则:规则的前端与w匹配的最好,然后将规则的后端推荐给客户。详细算法例如以下:
三、相关应用论文
Web 挖掘及其在竞争情报系统的应用
介绍了Web 挖掘的分类、特点和实现技术, 并对Web 挖掘在竞争情报系统中的应用进行了阐述。
Web 挖掘技术在电子商务中的应用研究
基于国内外最新研究成果对电子商务中应用的Web 挖掘技术进行了研究。对于个性化电子商务站点中难以发现用户行为特征问题,给出了基于Web 日志的客户群体聚类算法及Web 页面聚类算法。利用这些Web 挖掘技术可有效挖掘用户个性特征,从而指导电子商务站点资源的组织和分配。电子商务中利用Web 日志的聚类算法: 客户群体的模糊聚类算法, K-Paths 聚类方法,客户群体聚类的Hamming 距离算法,神经网络方法,基于模糊理论的Web 页面聚类算法,Web 页面聚类的Hamming 距离算法,
Web 挖掘技术在搜索引擎中的应用
对于搜索引擎而言, 通过借鉴Web 挖掘技术, 能够提高查准率与查全率, 改善检索结果的组织, 增强检索用户的模式研究, 从而使得检索效率得到改善。
Web挖掘系统的设计与实现
介绍了Web挖掘理论,包含Web挖掘定义、Web挖掘任务、Web挖掘分类3个方面,并简介了实现Web文本挖掘系统WTMiner (Web Text Miner)的几个关键技术:分词,特征提取,分类器的设计。在分词中採用了支持首字Hash和二分查找从而提高了分词速度,分类器的设计中考虑到SVM的训练算法速度慢的缺点,用近邻法以降低训练样本集中样本的数量,从而大大提高了算法速度。
Web 挖掘在网络营销中的应用研究
阐述了网络营销的特点和Web 挖掘的概念,并探讨了怎样将Web 挖掘技术应用于网络营销,介绍了一种客户群体和Web 页面的模糊聚类算法。
Web 文本数据挖掘关键技术及其在网络检索中的应用
在分析Web 文本信息特征的基础上,揭示了Web 文本数据挖掘的目标样本的特征提取、分词处理与Web 文本分类等关键技术,以Google 为例讨论了该技术在网络信息检索中的应用。
电子商务公共服务平台下的Web挖掘系统研究
针对我国电子商务的发展现状,将数据挖掘技术应用到提高电子商务公共服务平台的服务质量上来,设计了电子商务公共服务平台下的Web挖掘系统,并提出了系统的评价指标体系,为电子商务公共服务平台和我国电子商务的发展提供了一种新的思路和方法。研究了电子商务公共服务平台下的Web挖掘系统中点击流预处理及利用XML解决电子商务异构数据源集成的问题。
多关系数据挖掘研究综述
多关系数据挖掘是近年来高速发展的重要的数据挖掘领域之中的一个。传统的数据挖掘方法仅仅能完毕单一关系中的模式发现,多关系数据挖掘可以从复杂结构化数据中发现涉及多个关系的复杂模式。该文综述了多关系数据挖掘的研究状况。首先分析了多关系数据挖掘领域发生的原因和背景,其次总结了多关系数据挖掘研究的一般方法,然后介绍、分析了最具代表性的多关系数据挖掘算法。最后总结了多关系数据挖掘将来发展需重点解决的问题和面临的挑战。
分词技术研究及其在Web文本挖掘中的应用
本文阐述了汉语自己主动分词技术在中文Web文本挖掘中的应用,对有关理论进行了论述,讨论了Web文本挖掘系统的结构和技术.本文的工作集中在下面几点:
(1 )研究的重点在于中文关键信息提取,当中的难点就是中文自己主动分词。本文重点讨论的算法是基于自己主动建立词库的最佳匹配方法来进行中文分词,同一时候採用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。
(2 )基于特定的分词系统,设计了对应的分词词典,该分词词典支持词条首字高速查找算法,并应用于Web挖掘系统中,分析结果表明,此分词方法在处理速度上,还是歧义处理上都有较大提高。
(3 )在未登录词识别方面,引入决策树方法,使得未登录词识别能力有一定提高。
(4 )在分词的切分排歧方面,我们採取了一种基于N一最短路径的策略。在分词早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,终于的结果会在完毕识别之后从N个最有潜力的候选结果中选优得到。
(5 )针对其它算法对系统资源占用比較大的问题,採取了改进分词算法中用到的数据结构,精简字典文件等方法。收效最明显的做法是:将程序执行赛程所须要的各种数据文件建成一个索引文件,大大节省了程序执行时所需内存空间, 而且大大提高了分词处理速度。
基于Web使用挖掘的个性化服务系统
个性化服务系统是一种由多种WEB挖掘技术构成的基于用户使用的网站个性化系统。该系统使用事务聚类、使用聚类和关联规则技术等数据挖掘技术分析用户訪问模式,并结合用户当前訪问情况提供实时化个性服务。实验结果说明,个性化服务系统具有较好的性能。
基于Web挖掘的智能门户搜索引擎的研究
搜索引擎是人们在Internet上高速获得信息的重要工具之中的一个,可是因为中文自身的特点,使得检索结果的准确性和相关性不是非常高,将Web挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。文章首先介绍了搜索引擎的工作原理和相关概念,然后介绍了Web挖掘的定义、分类和应用。最后,具体讨论了Web挖掘技术在智能搜索引擎的重要应用。
基于Web挖掘技术的信息检索系统设计与实现
具体介绍了一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统信息检索方法结合起来,从而达到在WWW发现资源并将当中的信息提取出来进行处理的目的。
基于XML的Web数据挖掘技术
在经济全球化形势下,充分利用Web资源,从中挖掘出有决策意义的信息,对企业的自主发展有着不可估量的意义。本文在分析了Web数据挖掘技术的难点后,依据互联网技术的发展趋势,介绍了基于XML的Web数据挖掘技术并提出了一个基于XML的评判信息数据挖掘系统的实现框架。
基于XML的个性化Web内容挖掘研究
基于XML的Web内客挖掘逐渐成为Web数据挖掘的重要研究课题。论文定义了用户模型,通过三种途径建立用户模型。将XML和个性化技术应用到Web内容挖掘,设计了一个基于XML的个性化Web内容挖掘系统(PWCMS).并讨论了PWCMS的关键技术及实现。实践证明,将XML和个性化技术应用到Web内容挖掘是有效的。
基于数据挖掘的Web个性化信息推荐系统
基于数据挖掘的Web个性化信息推荐日益成为一个重要的研究课题。文章设计了一个基于数据挖掘的Web个性化信息推荐系统(WBIRS)在WBIRS中"提出了推荐策略"在推荐策略中考虑针对不同类型的用户採用不同的推荐算法。依据用户是否有新颖信息的需求WBIRS採用了两种推荐算法。
基于搜索引擎的知识发现
数据挖掘一般用于高度结构化的大型数据库,以发现当中所蕴含的知识。随着在线文本的增多,当中所蕴含的知识也越来越丰富,可是,它们却难以被分析利用。因而。研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎GOOGLE获取相关Web 页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了非常好的效果。
数据抽取及语义分析在Web 数据挖掘中的应用
把复杂的网络网站作为多个业务数据源,採用数据仓库及数据挖掘技术,从中抽取并净化数据到挖掘数据库,从而将数据抽取及语义分析应用于Web 数据挖掘中。在此基础上又提出了运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,使数据提取更加准确。
文本挖掘中运用自组织特征映射算法分析中国人类工效学研究状况
文本挖掘是抽取有效、新颖、实用、可理解的、散布在文本文件里的有价值知识, 而且利用这些知识更好地组织信息的过程。利用文本挖掘中的自组织特征映射( SOM)算法,对中国《人类工效学》期刊数据库的大量文档进行聚类分析,得到当前国内人类工效学研究领域里的主要研究类别、趋势,然后将聚类结果与国际人类工效学协会( IEA)发布的研究领域进行对照分析。
现代远程教育个性化Web挖掘研究
从Web上异质的、非结构化的数据中发现实用的知识或者模式是眼下数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的实用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。
一种基于自然语言理解的Web 挖掘模型
怎样从网上海量信息中发现实用的知识, 满足使用者的须要是一个迫切须要研究的课题。但现有的方法非常难从W eb 上把大量非结构信息抽取到数据库中, 并且一般的搜索引擎也仅仅是简单地把keyword匹配作为查询根据, 命中率较低。文章提出了将自然语言理解技术与Web 数据挖掘相结合, 根据用户的须要定制个性化的Web 数据挖掘模型。初步试验结果表明该方案是可行的, 能非常好的满足用户须要, 且模型的通用性和适用性强。