最近,近一万名数据科学家在数据科学方面参与开发机器学习算法,可以更精确地通过CT扫描检测癌变病变
数据科学家正在使用机器学习来解决肺癌的检测。从1月份开始,世界各地近1万名数据科学家在Kaggle上竞争开发最有效的算法,帮助医疗专业人员更早地准确地检测肺癌。
2010年,国家肺癌筛查试验显示,使用低剂量计算机断层扫描(CT)进行年度筛查,让计算机处理X光篇产生高对比度3D图像,可以减少肺部癌症死亡人数达20%。然而早期检测与更传统的X光片相比,该技术也导致了相对较高的误报率。
来自NCI的匿名高分辨率肺扫描
机器学习公司Kaggle的首席执行官Anthony Goldbloom说:“这是一个非常强大的方法,可以将癌症死亡率降低20%,但是误报率非常高。”
所以对于今年的数据科学竞赛,Kaggle与合作方Booz Allen 决定引导数据科学和机器学习的能量来解决误报问题。合作方获得了由劳拉和约翰·阿诺德基金会资助的100万美元的奖金,分为前十名参赛选手。
数据科学为社会做好事
Booz Allen高级副总裁兼首席数据科学家Josh Sullivan说,Booz Allen和Kaggle在2015年创建了数据科学竞赛,努力将数据科学家重点放在社会上。
他说:“我们想创造出一些让人们聚集在一起为社会做出贡献的东西。”
我们如何为社会福利做一些实质的事情?我们希望它能够让科学进步,对公众开放,虽然不利于我们的利益或客户的利益,但开源会让更多人受益。
Sullivan说,为了第三届年度数据科学竞赛(以前的数据科学竞赛专注于确定海洋健康和检测心脏病的算法),提交了300多个方案。最终他决定帮助美国国家癌症研究所(NCI)与拜登癌症月刊商讨,努力加速癌症研究,为更多的患者提供更多的治疗方案,并改善癌症预防和早期检测。
NCI为数据科学竞赛提供了2000个匿名的高分辨率CT扫描,每个图像包含千兆字节的数据。Sullivan说,1500个图像是训练集,伴随着最终的诊断。剩下的500张图像是问题集。使用训练集,竞争对手的机器学习算法必须学会如何正确地确定其余500幅图像中肺部病变是否癌变。根据正确诊断的百分比对算法进行评分。
数据已在Kaggle平台上传。谷歌在3月份收购的Kaggle由Goldbloom于2010年成立,专门负责预测建模和分析竞赛。公司和研究人员发布数据,使数据科学家能够竞争生产最好的模型。该公司拥有成千上万的跨越近200个国家的注册用户。
在这场比赛中,Kagglers是卷积神经网络(CNN)的专家,这是一种由生物体内视觉机制启发的深层学习神经网络。虽然CNN对许多不同类型的问题很有用,但CNN擅长计算机视觉问题。在以前的Kaggle比赛中,Kagglers竞争创建基于CNN的算法,可以在社交媒体上区分狗和猫的图片。
Goldbloom说:“这个数据很新奇,NCI提供的CT图像“。它真的把卷积神经网络推向了前所未有的高度,因为数据集的大小,医疗数据集总面临挑战,互联网上有多少猫和狗的图像呢?图像收集都非常昂贵,CT扫描数据更少。
而Goldbloom解释说,CNNs很容易出现称为“过度拟合”的效应,统计模型倾向于描述噪声而不是基本关系,因为相对于观测次数参数太多。
Goldbloom说:“构建不过分的卷积神经网络是困难的,数据集越小越难。“这真的是技术活,它必须在相对较少量的图像上进行泛化。”
近10,000名Kagglers参加了数据科学碗。他们总共花了15万多小时,提交了近18,000个算法。许多放射科医师在Kaggle的论坛上自愿提供专业知识,帮助竞争对手完善工作。
数据科学碗获胜者
最终,中国清华大学的两位研究人员廖方舟和李哲获得第一名。荷兰的软件和机器学习工程师Julian de Wit和Daniel Hammack取得了第二名。由位于荷兰的公司工作的成员组成的团队Aidence占据了第三名。
Sullivan说:“NIH [美国国立卫生研究院] 将最终与FDA [美国] 食品和药物管理局合作,并希望能够管理这些数据,以便他们可以进入实际阅读这些CT扫描的软件。这是我们试图推动的最大回报。”
他指出,他希望NIH和FDA能够查看一些顶级算法。顶级队伍的得分相差不到百分之几,有的可能会带来更多的技术可能性。
Kaggle竞赛地址:
https://www.kaggle.com/c/data-science-bowl-2017
https://github.com/lfz/DSB2017
Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the LUNA16 challenge
https://arxiv.org/abs/1612.08012