先说分布式计算和并行计算的异同:
解决对象上:都是大任务化为小任务,这是他们共同之处。
但是分布式的任务包互相之间有独立性,上一个任务包的结果未返回或者是结果处理错误,对下一个任务包的处理几乎没有什么影响。因此,分布式的实时性要求不高,而且允许存在计算错误(因为每个计算任务给好几个参与者计算,上传结果到服务器后要比较结果,然后对结果差异大的进行验证,我个人感觉这样有助于发现科学家们真正想要找的)!
分布式要处理的问题一般是基于“寻找”模式的。所谓的“寻找”,就相当于穷举法!为了尝试到每一个可能存在的结果,一般从0~某一数值被一个一个的测试,直到我们找到所要求的结果。事实上,为了易于一次性探测到正确的结果,我们假设结果是以某个特殊形式开始的。在这种类型的搜索里,我们也许幸运的一开始就找到答案;也许不够走运以至于到最后才找到答案,这都很公平。
这么说,并行程序并行处理的任务包之间有很大的联系,而且并行计算的每一个任务块都是必要的,没有浪费的分割的,就是每个任务包都要处理,而且计算结果相互影响,就要求每个的计算结果要绝对正确,而且在时间上要尽量做到同步,而分布式的很多任务块可以根本就不处理,有大量的无用数据块,所以说分布式计算的速度尽管很快,但是真正的“效率”是低之再低的,可能一直在寻找,但是永远都找不到,也可能一开始就找到了;而并行处理不同,它的任务包个数相对有限,在一个有限的时间应该是可能完成的。
分布式计算提出了一个让工作站端能够在后台持许工作的方法,而用户完全不需关心任何东西。这种实现基于两个原则,其一是任务连续分配和空闲优先权,其二是写一个屏幕保护程序。现在的调度程序已经不错了,而空闲优先任务将在人们完全不用关心任何东西的情况下自动执行。利用屏幕保护程序可以利用计算机闲置的时间计算工作任务。
分布式的编写一般用的是C++(也有用JAVA的,但是都是娱乐性质的项目了,不是主流),基本不用MPI接口。并行计算用MPI或者OpenMP。如果把网格计算算做分布式计算(网格计算是分布式计算的一种特例,但是有区别,区别仅仅在编程方法和实际应用的范围上),网格计算使用中间件!而且对联网的各台计算机的操作系统的要求比较特殊。
网格计算是分布式运算的进化型,每个人打开电脑,网格就像电力网一样,可以用起来,你把CPU能力贡献出来,那么你可以用全世界的CPU之和。详细的说,就是:计算机组成的网格类似于输电网:当我们使用电器的时候,从来没有关心电力来自哪个发电厂,以及经过了什么电压变换。我们只是简单的把电器插入墙壁上的电源插座。然而隐藏在插座后面的则是许多发电厂和把它们连接在一起的输电线路。计算机网格模仿了输电网。当你把一台电脑接入计算机网格的时候,就相当于寻求使用计算机网格的“计算力”。你不用关心数据是由什么计算机储存和计算的,正如你并不关心电源插座后面的故事。网格计算就如同建立计算机的输电网。一个发电厂多余的发电能力可以通过输电网传送给远方的城市用户,一台计算机多余的计算能力远可以通过计算网格,让远方的用户加以利用。
照上面的说法,我个人的理解是,分布式计算是将大任务化分为小任务,各台参与计算的电脑之间是在物理地域上的分布,一般有服务器作为“中央”,参与计算的电脑不用了解工作原理,仅仅只是就自己感兴趣的项目做贡献而已,注意,是“向别人”无偿的做贡献,不是自己“直接”受益;而网格计算是自己“直接”受益的,她通过一个平台允许你调用别人计算机的处理资源,而别人根本就不知道你在用他的资源!这就是说,分布式计算是你和其他人一起组成“一台”专供某些科研组织使用的超级处理机,网格计算是将所有网内其他人的电脑组成一台专供你自己使用的超级处理机。
分布式计算强调参与的计算机自愿参与!!!网格计算平台暗箱操作,不管别人是否愿意,只要联入网内,就要成为另外某人的“处理机”!!!
分布式更偏向于计算任务的分解!将计算任务化整为零,将大家的处理能力化零为整;网格计算更偏向于计算能力的集中!相当于集百家之精华,融你一人之荟粹!!
分布式系统的最主要的特点是整个系统中的各计算机对用户都是透明的。也就是说,对用户来说,这种分布式计算机系统就好像只有一个计算机一样。用户通过键入命令就可以运行程序,但用户并不知道是哪一个计算机在为他运行程序。是操作系统为用户选择一个最合适的计算机来运行其程序,并将运行的结果传送到合适的地方。这些都不需要用户的干预。
Wikipedia的解释:
云计算(cloud computing,分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。
最简单的云计算技术在网络服务中已经随处可见,例如搜寻引擎、网络信箱等,使用者只要输入简单指令即能得到大量信息。
未来如手机、GPS等行动装置都可以透过云计算技术,发展出更多的应用服务。
进一步的云计算不仅只做资料搜寻、分析的功能,未来如分析DNA结构、基因图谱定序、解析癌症细胞等,都可以透过这项技术轻易达成[1]。
稍早之前的大规模分布式计算技术即为“云计算”的概念起源
IT专家网的解释:
“云计算”(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。许多跨国信息技术行业的公司如IBM、Yahoo和Google等正在使用云计算的概念兜售自己的产品和服务。
云计算这个名词可能是借用了量子物理中的“电子云”(Electron Cloud),强调说明计算的弥漫性、无所不在的分布性和社会性特征。量子物理上有“电子云(electron cloud)”,在原子核周围运动的电子不是一个经验世界的轨道例如像天体一样的运行轨道,而是弥漫空间的、云状的存在,描述电子的运动不是牛顿经典力学而是一个概率分布的密度函数,用薛定谔波动方程来描述,特定的时间内粒子位于某个位置的概率有多大,这跟经典力学的提法完全不同。
电子云有以下特性,概然性、弥漫性、同时性等等,云计算可能的确是来自电子云的概念,前今年就有所谓“无所不在的计算”,IBM有一个无所不在的计算叫“Ubiquitous “,MS(Bill)不久也跟着提出一个无所不在的计算“Pervade“,现在人们对无所不在的计算又有了新的认识,现在说是”Omnipresent “。但是,云计算的确不是纯粹的商业炒作,的确会改变信息产业的格局,现在许多人已经用上了Google Doc和Google Apps,用上了许多远程软件应用如Office字处理而不是用自己本地机器上安装这些应用软件,以后谁还会花钱买Office软件呢?还有许多企业应用如电子商务应用,例如要写一个交易程序, Google的企业方案就包含了现成的模板,一个销售人员根本没学习过Netbeanr也能做出来。这种计算和产业动向是符合开源精神的,符合SaaS(Software as a Service)趋势。
现在有这样的说法,当今世界只有五台计算机,一台是Google的,一台是IBM的,一台是Yahoo的,一台是Amazon的,一台是Microsoft的,因为这五个公司率先在分布式处理的商业应用上捷足先登引领潮流。Sun公司很早就提出说“网络就是计算机”是有先见之明的。
Adaptive In Organizations的解释
“Computing in the cloud” is one name for services that run in a Web browser and store information in a provider’s data center — ranging from adaptations of familiar tools such as email and personal finance to new offerings such as virtual worlds and social networks.
“云计算”是一个很时尚的概念,它既不是一种技术,也不是一种理论。准确说,云计算仅描述了一类棘手的问题,因为现在这个阶段,“计算与数据”跷跷板的平衡已发生变化,即已经到“移动计算要比移动数据要便宜的多(Moving computation is cheaper than moving data)”。
“数据”变得越来越臃肿,用经济的眼光看,“数据”应该“固定”下来。想像一下,复制1PiB(1PiB = 1024TiB)数据的成本以及存储这些数据的成本,数据变来变去而导致的“一致性”问题。诸如搜索、推荐和社会关系网络等这些“新兴”的服务是很耗费“数据”的,例如,看似一个简单搜索请求,却依赖于一个规模极为庞大的索引数据,处理后输出却很小。输入输出的数据规模远远小于计算的数据处理规模,几百个KiB相对几个PiB,保守点“1 : 1000,000”。
比例问题还好理解,然而问题关键却是云内的数据与数据之间的关系,即“数据的划分问题”。尽管“分而治之”是一个古老的原则,而且分布计算也已经发展了四十多年,然而对这一点,我们的认识依然浅的很。
“云计算”代表了一个时代需求,反映了市场关系的变化,谁拥有更为庞大的数据规模,谁就可以提供更广更深的信息服务,而软件和硬件影响相对缩小。
分布式计算 网格计算 并行计算 云计算