谷歌发布了一款AI工具,可以帮助基因组数据解读

如果你曾经看过《犯罪现场》这样的罪案剧,你可能会想起一个场景:法医通过电脑对数千个DNA片段进行搜索,从而匹配出犯罪现场和犯罪嫌疑人。虽然这个过程在现实生活并不像电视剧那样,但是主要思路是一样的。遗传学本质上是一门比较科学。无论你是想确认一名嫌疑犯、一种基因疾病还是一名失散已久的亲属,都需要将一个基因组与另一个基因组进行比较,从而在数十亿个DNA中发现相似和不同。

虽然确认失踪人员或者犯罪嫌疑人的过程通常只会涉及到一个人的几个遗传片段,但是像识别某种疾病的基因变异这样的问题,往往需要大量的数据处理。尽管目前很多前沿的研究都是为了帮助科学家们做到这一点,但对所有这些数据都做到充分的定义还面临着巨大的挑战。这也正是人工智能所要解决的问题

本周,谷歌推出了一款名为DeepVariant的程序,可以通过深度学习来拼凑一个人的基因组并且更准确地识别出DNA序列中的突变。

这个技术在谷歌中曾经用来识别一张照片是猫还是狗,在这里DeepVarient利用了相同的技术解决了DNA分析领域的一个重要问题。现代DNA测序仪可以执行高通量测序,读取出的不是完整的DNA序列,而是重叠的短片段。然后将这些片段与另一个基因组进行比较,从而将它们拼凑在一起,进行变异识别。但是这项技术很容易出错,科学家也很难排查出这些错误以及小突变。这些小突变非常重要。它们可以提供重要的见解,比如说,疾病的根本原因。区分哪些碱基对是错误的,哪些是正确的,这被称为“变量调用”。

其实已经有一些工具可以帮助科学家做到这一点。最广泛使用的是GATK,这是一种人工设计的算法,可以将统计数据应用到测序机器最常出错的地方。然而,DeepVariant利用神经网络技术来构建比以往任何技术都更精确的程序。去年,这项技术在FDA大赛中获得了第一名。

神经网络之所以如此命名,是因为它们的工作方式有点类似于神经元在大脑中的方式。每一层网络都逐级处理着更为复杂的工作。为了利用图像识别技术来建立一个精确的DNA序列,谷歌团队将DNA测序数据转化为了一个图像。例如,构成遗传密码的As、Ts、c和Gs,就会以红色的形式出现。研究人员随后对数百万份基因组测序和高通量读取技术进行了研究,并教会了这个程序哪些东西更重要,哪些可以忽略。

由此产生的算法可以比以往任何系统都更准确地对错误进行排查。最初,这些图像仅由三种颜色组成,或三层数据。不过,本周发布的最新版本包含了7种,使其可以更加精确地表达。这个程序目前是作为开源软件发布的,外部研究人员可以使用以及继续进行程序强化。

DeepVariant绝不是100%准确的。但它的成功代表了机器学习对基因学的影响。基因组数据的规模和复杂性是巨大的。机器可能正是我们需要弄明白的东西。

本文系作者 网易科技?授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接

时间: 2024-10-13 04:30:34

谷歌发布了一款AI工具,可以帮助基因组数据解读的相关文章

谷歌发布的首款基于HTTP/2和protobuf的RPC框架:GRPC

Google 刚刚开源了grpc,  一个基于HTTP2 和 Protobuf 的高性能.开源.通用的RPC框架.Protobuf 本身虽然提供了RPC  的定义语法,但是一直以来,Google 只开源了Protobuf 序列化反序列化的代码,而没有开源RPC 的实现,于是存在着众多良莠不齐的第三方RPC 实现,不过我在项目中采用WCF搭配Protobuf是一个很不错的RPC实现,Google这个框架是是基于HTTP2的,这是他有特色的地方,带来诸如双向流.流控.头部压缩.单TCP连接上的多复用

推荐7 款 Python 工具,让在学习时就就比别人快一步!

想要成为一个程序员,除了学习各种教程之外,熟悉各种已经在生产环境中使用的工具会让你更快的成长! 看到最后有惊喜! 这里有7款python工具,是所有数据专家必不可少的工具.当你对他们有一定了解后,会成为你找工作的绝对优势!下面就了解它们一下吧: IPython IPython是一个基于Python Shell的交互式解释器,但是有比默认Shell强大得多的编辑和交互功能.IPython 提供了如下特性: 更强的交互 shell(基于 Qt 的终端) 一个基于浏览器的记事本,支持代码,纯文本,数学

[Android 新特性] 谷歌发布Android Studio开发工具1.0正式版(组图) 2014-12-09 09:35:40

Android Studio是谷歌于13年I/O大会推出的Android开发环境,基于IntelliJ IDEA. 类似 Eclipse ADT,Android Studio 提供了集成的Android开发工具用于开发和调试. 今日谷歌发布了Android studio的1.0正式版,增加了包括智能代码编辑,用户界面设计工具,性能分析工具等新功能,支持Android 5.0平台的开发. 谷歌也将推荐开发环境从Eclipse IDE调整为Android studio,还为Eclipse开发者提供了

Web工程师必备的43款可视化工具

国外站点DATAVISUALIZATION.CH为大家总结出了当前热用的43款可视化工具,包括Arbor.Chroma.js.D3.js.Google Chart Tools等,绝对让你一饱眼福. 1.Arbor.js Arbor是一个免费的.可视化的图形库,基于矢量创建动态的连接图.它为图形组织和屏幕刷新处理提供了一个高效的.力导向的布局算法. 2.CartoDB CartoDB是一个地图Web Service,并提供非常丰富API,利用它可以轻松创建动态的.可视化的数据驱动地图. 3.Chr

2014年全球发布的八款重要软件

我们梳理了2014年发布的众多软件,从中筛选出八款有较大影响力的产品,这些软件带来的影响力甚至将持续到2015年或者更久. 1. Facebook Messenger 入选理由:Facebook移动客户端APP,它建立了Facebook完善的信息交互体系. 当下,当你使用智能手机或平板电脑与Facebook好友发送信息或聊天的时候,居然不能通过Facebook的主客户端--却不得不使用另外一款独立分离的app.这种情况困扰着很多Facebook的用户(包括那些拒绝安装Facebook app的人

谷歌发布全新设计语言:跟苹果Swift天壤之别

今日凌晨,谷歌(微博)在I/O大会上发布了全新设计语言Material Design.在20多天前的WWDC上,苹果也发布了全新编程语言Swift.两家科技巨头公司,在一年一度的开发者大会上,都发布了全新的语言,但这二者却有着本质的区别. Material Design是一款全新的设计语言,谷歌计划将这款设计语言应用到Android.Chrome OS和网页等所有平台上. 谷歌最新发布的Android L系统就采用了Material Design语言,这是谷歌为了解决碎片化问题的重要举措,将统一

VS2008(VC9)基于OpencasCade发布软件 以及 sxstrace.exe 工具的使用

关键字: ※.  在Release版本中, "在共享DLL中使用MFC"----程序能编译成功, 但如果使用 "在静态库中使用MFC"-- Build失败,出现各种连接错误. ※. 在别的Windows机器上运行,运行,出现错误如下 "应用程序正常初始化(Oxc0150002)失败 ,请单击确定关闭应用程序," 这就是在本次使用VS2008发布软件过程中碰到的问题.这两个问题的解决,持续了两个月之久.现在终于将问题解决了.现将问题解决过程记录如下

科技公司钟爱的50款开源工具--转载

本文介绍了多款知名的开源应用软件,科技公司可以用它们来管理自己的 IT 基础设施.开发产品. 过去十年间,许多科技公司已开始畅怀拥抱开源.许多公司使用开源工具来运行自己的 IT 基础设施和网站,一些提供与开源工具相关的产品和服务,或基于开源工具而建的产品和服务,还有一些在为开源代码贡献代码或支持开源项目. Black Duck 在 2015 年的一项调查发现,78% 的企业组织使用开源软件,这个比例几乎是 2010 年时候的两倍.此外,88% 的企业表示,它们预计在今后几年,会加大为开源项目贡献

App运营者必须知道的30款数据分析工具

如今的移动应用早已不再是某种结构单一.功能简单的工具了.当我们的移动应用变得越来越庞杂,我们便会需要借用分析工具,来跟踪和分析App内的每一个部分.幸运的是,目前市面上有许多数据分析工具可供App开发团队选择. 事实上,这些新一代的数据分析工具,将可以监测发生在App中的每一个细小的事件.如果你曾经想追踪你的用户,知道他们从哪个平台下载了应用.看到你的用户在App内的跳转路径.了解哪个页面在App内最受欢迎,你一定能在以下30款分析工具中找到你的菜. 用户人群细分 1.Upsight (含付费项