云计算大数据延伸至生命信息领域:生物云计算

随着互联网的普及和技术的发展,大数据云计算已经渗透在人们的生活的各个方面,在金融,零售,能源,交通等领域已经得到广泛应用。而对于生物信息来说,生物的DNA,基因序列,生物芯片等无时无刻不产生新的数据;比如说,DNA测序每年能够产生大约150亿兆(PB级)的数据,如果将这些数据存储在DVD中,那么刻录出来的DVD能够达2.5英里高。生命科学的数据来源和形式多样,包括基因测序、分子通道、不同的人群等。每个临床试验需要千上万病患的数年统计资料,而DNA测序的每个样本产生的数据则以兆兆位计算;如果能高效、高速地利用这些大数据,无疑将为生命科学领域带来无限机遇,但如何分析利用也带来了全新挑战。生物云计算便能很好的解决这些问题;

  1)云存储:利用世界上成百上千台服务器云,通过分布式计算系统,取得廉价、便捷的服务;

  2)云计算与大数据分析:通过大数据处理软件将复杂,繁琐的数据通过可视化,简单化的方式呈现出分析结果。

  大数据,云计算,生物医学——三个炙手可热的关键字和在一起会是什么效果?从应用角度出发,这个可以是SaaS,可以是PaaS;下面介绍一些国内外的生物云计算公司,从四个方面来重点介绍一下在云出现的比较有影响的在云端生物学大数据的应用。这四个方面分别是基因测序,临床药物研发管理以及健康管理

  1) DNAnexus

  DNAnexus 是一家致力于打造云端 DNA数据库的创业公司,并把这些数据提供给研究人员和科学家。目的是将更多基因存储至云端,实现基因的便捷的访问和对比分析。该项目同时还提供人类基因数据备份,基因检索和配对等。通过检索和配对,医生可以从数千万的基因信息中找到对病人有效的药物。目前 DNAnexus 的用户已经包括斯坦福大学和哈佛大学等高校,制药公司,某些医生也会通过DNA 信息来诊断病情。公司提供的服务初衷解决在实验室经过测序仪大量数据的问题,人类基因测一次数据,原始数据在100个G到600个G之间,通过服务导入到云服务平台,后来提供了非常灵活的多样化的各类各样的关于数据的测序分析和比对的工作流程,数据可以有效的管理起来,并且测序结果能够很好的以用户很好的形式展现出来。该公司获得Google领投的1500万美元的融资。2014年1月,Google基因组开启了基因组云存储服务,目前谷歌基因组存储数据费用为100GB数据25美元一年,可满足单个人的原始基因信息存储。且在经过谷歌特殊算法的处理后,可压缩至1GB,费用也将降至25美分。

  2)Seven Bridges Genomics

  SevenBridges Genomics是美国一家创业公司,主要提供基因排序研究和生物制药产品服务,实现生物信息的可视化,数据分析等方面。Seven Bridges Genomics在人类基因组排序和分析中综合应用了云计算和NoSQL数据的技术,比如EC2、S3和MongoDB。为了降低数据存储成本,他们还采用了Glacier。Seven Bridges PaaS提供了一个设置数据通道的界面,这些通道可以基于预定义的模型,也可以根据当前任务进行调整。

  3)crossbow

  Crossbow是一款能够用于完整基因组重新排序分析的工具。经过对多个类库进行整合,它可以借助AWS只花不到100美元的成本在3小时之内分析完一个人类基因组。对于有志于从事生物信息的开发人员来说,这是一个非常好的工具。这是对全基因分析的流程软件,它的意义在于原来开发之前,完成一个人健康分析的在单个服务器,这软件通过亚马逊云平台上的Hodoop把时间缩小了。结果来看,它现在在32CPU核上任务压缩3小时不到,整个成本不到100美元,这是众多工作中的一部分。

  4)Explorys

  Explorys公司成立于2009年,是一家临床医疗数据管理应用公司,是克利夫兰诊所派生的创新公司。公司利用大数据提高医疗水平和服务质量。公司通过最强大的医疗计算平台把各个系统的数据联系在一起,提供完整的临床整合、高危人群管理、医疗费计算解决方案以及业绩计薪解决方案。该平台拥有2050亿临床、财务、运行数据元,覆盖3800万名患者、300家医院、215,000多名医疗服务提供者。18家大型综合医疗系统正在使用可靠的Explorys云计算平台确定疾病的类型、治疗方案和治疗效果。它是基于私有云的模式,向第三方机构提供服务,第三方机构可以把自己临床数据、运维数据财务数据托管到这个平台来,这个平台提供最大的好处能实时提供数据分析,这个规模托管了1300万人,大概4400亿的内容,数据规模在60个TB左右,2013年达到70个TB,顶层技术在Hodoop上走的。

  5)Illumina

  Illumina公司是遗传变异和生物学功能分析领域的优秀的产品、技术和服务供应商。Illumina销售各种各样的DNA相关产品,包括基因测序仪器、分析相关数据的软件和服务。通过帮助客户加快实现生物信息的采集、分析和应用,来改善人类健康。当前,Illumina拥有基因组测序仪市场70%的份额。公司今年1月,Illumina发布了新款高端基因测序仪,可以准确测出全基因组序列,而成本还不到1000美元。当前,基因组测序已经不再是一个简单的研究工具,读取人类全部DNA的费用已经降至足够低,甚至可以用来解决一些医疗问题,并确定治疗方案。

  6)癌症云存储

  2014年9月24日,美国癌症研究中心在美国联邦政府商务机会网站上发出公告,其于今年1月发起的癌症基因组云计算平台试验项目花落The Broad Institute,Institute for SystemsBiology和Seven Bridges Genomics, Inc.,三家分别获得了700万、650万和580万美元的资助。NCI启动此项目时发布的Broad Agency Announcement很好地阐述了一个大型科研机构或科研项目对云计算生物信息系统在各个方面的要求,包括核心数据、架构、计算服务、分析能力、权限管理、安全性、可扩展、数据标准等等,并提出了如何从这些角度评价一个云计算生物信息系统的基本考虑。

  中国生物云计算公司

  在中国,在基因组学为代表的生物数据分析市场上,围绕在我们身边的似乎只有华大基因、诺禾致源、药明康德、贝瑞和康、美吉生物…其实,这个市场远比我们想想的精彩。随着以阿里云为代表的国内公共云计算服务的成熟,以及AWS进军中国的脚步不断向前,国内基于云计算的生物数据分析创业公司也开始涌现,小编今天为大家详细介绍下国内云计算生物信息公司的情况:

  1) 华大科技

  华大科技基于成熟的商业云平台和先进的超算资源,为客户提供涵盖云计算、云存储和云交付的一体化服务。目前主要有:生物信息分析整体解决方案(BGI Box),基于云的生物信息分析,数据云交付和数据库网站建立。

  2)荣之联

  荣之联手握当下最热门的云计算项目,成为IT板块又一生力军。荣之联为数据中心解决方案产品化项目、营销服务网络扩建项目、生物云计算数据中心开发和建设项目以及其他与主营业务相关的投入。以生物云作为突破口,凭借十多年的行业应用经验,荣之联选择了生物行业作为突破口。生物信息学属于新兴行业,一般传统的想法认为生物学研究还是在试验室里用试管进行试验,其实现在已经进入到分子生物学阶段,构成DNA的碱基序列信息一旦从测序仪中测出来,后续大量的工作就基本上是计算机的工作了。如今,荣之联正努力将华大基因建设生物云的经验推广到整个生物研究领域。除了生物云,荣之联还在打造政府云、动漫云等,并且致力于让这些“云”落地。

  3)基云惠康:

  公司专注于人的外显子测序数据分析和全基因组测序数据分析服务。Illumina专用于人全基因组测序的X Ten今年在国内的测序设备市场上俨然就是高大上的代名词,基云惠康专注于人的全基因组测序数据分析也是自然而然的选择。外显子测序数据分析应该只是初创期顺便做做的服务。

  4)聚道科技

  聚道科技(http://genedock.com)的创始人李夏戎是中科院自动化所的博士,在阿里收购友盟之前是友盟的首席数据科学家。前阿里云ODPS的产品经理,王乐珩也加盟了这个团队。在加入阿里云之前,王乐珩是中科院计算所pFind的项目经理。移动互联网加云计算背景的团队杀进生物数据领域,在投资人看来绝对是热门之选——百万美金的投资应该是已经入袋。从其网站上的Demo来看,其作品很像Seven Bridges和DNANexus。

  5)华为生物云

  华为生物云聚焦国内市场,适用于基因工程、蛋白质工程、生物制药等需要高性能计算的业务的华为生科云解决方案这次也为我们带来了惊喜。华为生科云解决方案,由HPC工作流、弹性计算云、对象云存储、线下数据寄送服务四部分组成,为客户提供端到端的解决方案,助力中国科研数据分析,演绎了生物与计算的完美结合。

时间: 2024-10-10 20:33:35

云计算大数据延伸至生命信息领域:生物云计算的相关文章

云计算+大数据,真的所向披靡吗?

?? 这两个概念的结合目前热得发烫,并号称人类已从"计算机+软件"模式的工业经济进入到了以"云计算+大数据"模式的信息经济,马云的概括是由IT时代到了DT时代. 彩云.白云.乌云.马云--无论是什么云,未来最流行最有搞头的应该是混合云,尽管理论上来说大企业们更喜欢混合云,你让他们完全上公有云玩过家家是不太可能的,他们很有可能是大部分东西捂着,一小部分东西开放,偏向于闷骚型的,可是中小企业们就不一样啊,他们没什么东西值得捂着的,完全地明骚,只有这样,才有可能获得公有云

云计算 大数据 人工智能

一.互联网行业及云计算 在互联网时代,技术是推动社会发展的驱动,云计算则是一个包罗万象的技术栈集合,通过网络提供IAAS.PAAS.SAAS等资源,涵盖从数据中心底层的硬件设置到最上层客户的应用.给我们工作生活提供服务! 1.互联网大事记 1936年 英国数学家A.M.Turing发明图灵机,为现代计算机硬件和软件做了理论上的准备.艾伦·麦席森·图灵(Alan Mathison Turing,1912年6月23日-1954年6月7日),英国数学家.逻辑学家,被称为计算机科学之父,人工智能之父.

18小时内掌握Spark:把云计算大数据速度提高100倍以上

如何把云计算大数据处理速度提高100倍以上?Spark给出了答案. Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上,下图来自Spark的官方网站: Logistic regression in Hadoop and Spark 可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上! Spark是基于内存,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的支持Intera

如何成为云计算大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手.Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理.图技术.机器学习.NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位. 伴随Spark技术的普及推广,对专业人才的需求日益增加.Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的

云计算大数据关系整理

写在最开始,便于理解两者区别 云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理. 云计算的特点:通过对计算.网络和存储资源的动态调度及应用的快速部署,通过虚拟技术提高信息化设备的利用率,实现节约资源.提高效率.集中管理.信息共享和节约财政支出等目的. 云计算平台主要部署各类应用系统.存储海量数据,为电子政务.社会管理.公共服务等提供服务. 大数据的特点:通过Hadoop等分布式计算架构,通过ELK等工具,从云计算平台中抽取海量数据,根据设定的目标进行跨部门.跨行业等大数据分析.建模及验证

王家林最受欢迎的一站式云计算大数据和移动互联网解决方案课程 V3之Android架构设计和实现完整训练:HAL&Framework&Native Service&Android Service&Best Practice

如何理解Android架构设计的初心并开发出搭载Android系统并且具备深度定制和软硬整合能力特色产品,是本课程解决的问题. 课程以Android的五大核心:HAL.Binder.Native Service.Android Service(并以AMS和WMS为例).View System为主轴,一次性彻底掌握Android的精髓. 之所以是开发Android产品的必修课,缘起于: 1,  HAL是Android Framework&Application与底层硬件整合的关键技术和必修技术:

大数据的未来--个人信息/情报/认知服务的思考

1.未来大数据的一切都都关于人 ...不论述 2.大数据收集困难和高风险 现在的大数据的来源,都是通过自有平台收集用户数据的,对于没有平台的企业很难有机制和渠道获取稳定的数据来源, 有说通过法律和制度来,规范关于人的大数据使用,在这之前,唯一可行的方向是,把用户大数据使用,做成服务的必选功能,要使用服务,必须接受隐私分享. 3.对大数据的利用方式 现在的大数据 都是由各种数据聚合出一类关于人的结论 然后拿给企业使用我想大数据应用还有另一类利用网上的大数据,告诉某类人.甚至某个人,世界发生着什么,

【互动问答分享】第2期决胜云计算大数据时代Spark亚太研究院公益大讲堂

"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第2期互动问答分享] Q1:新手学习spark如何入手才好? 先学习Scala的内容,强烈推荐<快学Scala>: 然后按照我们免费发布的"云计算分布式大数据Spark实战高手之路(共3本书)"循序渐进的学习即可,其中"云计算分布式大数据Spark实战高手之路---从零开始"涵盖了Spark1.0的所有主题:包括Spark集群的构建,Spark架构设计.Spark内核

【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂

Spark亚太研究院100期公益大讲堂 [第5期互动问答分享] Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么? Spark1.0 以前支持即席查询的技术是Shark; Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL; 尚未发布的Spark 1.1开始 Spark SQL是即席查询的核心,我们期待Hive on Spark也能够支持即席查询: Q2:现在spark 1.0.0版本是支持hive on spark么,它