《实体解析与信息质量》 - 3.1.0 概述

本章将要介绍三种ER模型,这些模型分别涵盖了ER流程的不同层面,相互之间进行补充。第一个也是最先被讨论的模型是Fellegi-Sunter模型,该模型讨论的是如何利用直接匹配进行等价引用链接的方法。为处理概率匹配下的等价匹配问题,Fellegi-Sunter模型还提供了一种特殊的算法。我们要讨论的第二个模型是斯坦福实体解析框架(SERF),该模型针对ER的一般处理流程,定义出一系列通用术语,其中包括引用对之间的匹配,整合等操作。不同于Fellegi-Sunter模型,SERF模型并不定义关于匹配或整合的具体实现办法,相应的,它的关注点在于如何以系统的方式处理大规模的引用数据量。本章要讨论的第三个模型是代数模型,该模型站在更高的抽象层次来描述ER流程。它关注于不同的ER流程所产生的结果,以及相同输入在不同ER流程中产生的结果之间的差异性。代数模型将ER流程看作是一组引用输入之间的等价关系。在第四章,我们会讨论一个叫做基于实体的数据整合模型(EBDI),该模型就是从ER的代数模型衍生而来。

时间: 2024-10-13 10:30:45

《实体解析与信息质量》 - 3.1.0 概述的相关文章

《实体解析与信息质量》 - 2.2.0 总结

信息质量的基本原则,就是为了将组织中的信息的价值最大化.信息的质量水平也直接与信息在其应用中所产生的价值关联.而数据质量则是信息质量的一个重要组成部分,它是根据预定义好的规格及需求,如何对数据进行评估,优化以及维护的实践.作为一种原则,信息质量覆盖了范围很广的知识以及技能的因素.IAIDQ IQ框架乃是由六个领域的内容所组成,其中包括:信息质量策略,政策以及监管:创建可推动信息质量发展的企业文化和环境:理解,量化并使信息质量价值与商业影响互相联系:确保组织信息架构对信息质量的支持:衡量并优化信息

《实体解析与信息质量》- 2.1.6 IQ与HPC

IQ与HPC 即使在现如今,大规模的数据处理以及虚拟无线内存不再像以前那么昂贵的时代,那些历史遗留下来的极简风格的数据内容,还是不断的困扰着现代信息系统.高性能计算(High-performance computing, HPC)如今已经不再仅仅是研究实验室里的玩物了,在近期兴起的云计算(Cloud computing)以及软件即服务(Software as a service, SaaS)(Knorr, 2008)将HPC带入了几乎任何组织当中. 正如实体解析模型中的许多术语是来自实体-关系模

《实体解析与信息质量》- 2.1.7 信息质量的演变

尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变.分别是数据清洗,预防,产品概述和企业资产这几个阶段. 问题认知:数据清洗阶段 九十年代初期,在Inmon (1992),Kimball, etal. (1998) 等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来.大多数组织机构都不知道如何处理操作性数据存储的质量不佳和数据之间的不一致性,直到他们开始尝试着将其整合成一个统一的数据存储仓库. 也正是在这个时候,

《实体解析与信息质量》 - 3.1.2 SERF模型

斯坦福实体解析框架(SERF)是由HectorGarcia-Molina领导的研究小组(Benjelloun, Garcia-Molina, Kawai, Larson, Menestrina,Su, Thavisomboon, and Widom, 2006)在斯坦福信息实验室开发出来的.SERF模型中,两个引用的成对解析被抽象成一个匹配方法(match function M),该方法通过操作一对实体引用返回一个布尔类型的真假值,这个值表明该引用对是否是等价的.除了匹配方法M,SERF模型还介

《实体解析与信息质量》- 2.1.5 信息及过程

从最基础的层面上来说,信息质量是关于信息本身的知识,然而到目前为止,我们讨论的更多的则是有关信息处理的过程.尽管我们已经进入了所谓的"信息时代",然而这么久以来,我们很少能够真正的将信息(数据)以及对数据处理的过程这两者区分开来.直到今天,所谓了信息时代如今更像是变成了"科技时代".这种差异性可以追溯到当年计算机系统的内存还十分有限,大多数问题都要靠高效的算法来解决的时代.存储系统过小也导致了大多数数据是以非常精确和压缩的形式保存,并且除非绝对需要,否则会以离线方式

《实体解析与信息质量》 - 2.2.1 复习题

1.      从財务的角度上怎样定义"资产"?信息在哪些角度符合这种定义?又在哪些角度不符合? 2.      信息质量的度量单位是什么? 3.      举例来说明这样一种情况:同一条信息在它的当中一个应用中具有较高质量.在还有一个应用中的质量则较低. 4.      找到一篇关于信息质量或数据质量的多维度框架的文章或书籍. 解释它与Wang-Strong框架的差别以及同样之处. 5.      解释从适用性角度的信息产品质量定义与从应用价值角度的信息产品质量定义之间的关系.上网查

《实体解析与信息质量》- 2.1.9 信息质量(IQ)和实体解析(ER)

IQ和ER最直接的联系就是在第一章中所讨论到的实体引用准备流程(ERA2).但是其实IQ和ER在其他方面也有着关联.ER过程一直都是IP创建的一部分,ER流程的有效性将会直接影响IP的质量.在某些情况下,ER过程就是公司将他们的ER和CDI服务提供给他们客户作为产品的IP.更经常的是,ER将作为实体数据(EBDI)集成的一个中间过程,EBDI是在第四章中详细讨论的话题.这将产生一个反馈循环,即在一个ER过程提高数据质量输入将产出高质量信息产品,反过来高质量输入进行连续的处理,而其中的一些处理也可

OEM信息自定义工具v2.0

支持win7系统属性OEM信息自定义修改 内置:联想,宏基,三星,惠普,戴尔,华硕,明基,方正,同方,东芝,康柏,富士通,LG,索尼,IBM,,Alienware,Tginkapad 这些OEM相关.参照 win7_oem信息修改工具v1.0制作,有所调整,界面更简洁. 表示对 dmqhcx88 年老痴呆 的感谢..自动判断系统位数,支持:Win7_86/64 OEM修改器.rar DIY,必备.... 绿野仙踪下载:http://pan.baidu.com/s/1c0oyXlI 备份下载:ht

未能解析目标框架“.NETFramework,Version=v4.0”的 mscorlib的解决方法

本人菜鸟一个,在编码过程中遇到的问题记录下以备忘,高手别笑.最近在做一个项目,公司的VS版本是2010,家里的VS版本是2012.把公司的项目用2012打开后再用2010打开就出现 未能解析目标框架“.NETFramework,Version=v4.0”的 mscorlib的提示,软件的界面无法显示.网上找了些解决方法,有的可能要重装VS什么的,在麻烦了. 我用VS 2010打开后先清理项目再生成项目,重新打开没有上面的提示了,界面也可以显示.