如果你看过《唐人街探案记》,你绝对不会想到,在现实生活中,一个人工智能与大数据的从业人员,也会亲自参与现实版的“唐人街探案”,只为了破解人工智能在行业中落地的迷局:训练行业人工智能算法模型,其输入数据需要事先经过行业知识进行分类和标注,才能成为合格的输入数据并用于人工智能算法训练,而在大量行业中其实是没有符合这样规格和标准的数据。
在行业中落地人工智能,第一步就是要先提炼行业知识,再用行业知识自动化地对行业数据进分类、打标签,才能真正训练出可以适用于行业的人工智能算法模型。在大多数的行业中,行业知识主要存在于从业人员的头脑里,因此这提炼行业知识的一步,必须是繁琐的人工方式。行业人工智能与大数据创业公司明略数据的创始人吴明辉就这样亲身参与过一宗现实世界里的破案,只是为了能在公安行业落地人工智能。
“我跟我的团队,受邀到内蒙古,尝试用人工智能算法破一起案件。我们的人工智能算法工程师与对方警员一起头脑风暴,把警员头脑中的行业知识转换为电脑可识别的数字信息,再用于已有案件数据的分类与标注。然而,这个过程中还是有很多挑战,比如有的摄像头没电了、导致缺乏关键性的数据,或是案犯的反侦察能力很强、导致数据失效。最后是利用人工智能算法通过跨省串并案自动识别出了另一起相似案件,通过进一步研判确实发现两起案件为同一案犯,综合两起案件的情报形成更完整的线索链,最终成功抓捕案犯。”吴明辉这位北大计算机硕士就此过了一把破案瘾。
2017年8月,吴明辉创立的北京明略软件系统有限公司(简称明略数据)完成了10亿人民币C轮融资,本轮投资方为华兴新经济基金、腾讯产业共赢基金。成立于2014年的明略数据,于2015年7月完成硅谷天堂投资的A轮近1亿元人民币融资;2016年8月获得了由红杉资本中国基金领投,分享投资、任子行以及A轮投资人硅谷天堂跟投的总计2亿人民币B轮融资。2018年4月18日2018大数据产业峰会期间,吴明辉与笔者畅谈了在行业中落地人工智能的“探案记”。
智能的前面是“人工”
2016年,AlphaGo激发了全球的人智能热潮;2017年至今,阿里云、华为、微软等国内外科技公司,陆续提出了行业AI或产业AI,即在行业或产业中落地AI,AI才能真正创造商业价值。2018年政府工作报告除了第五次提及“大数据”外,今年更强调“运用新技术、新业态、新模式,大力改造提升传统产业”。
人工智能看起来很美好,与行业应用场景结合起来,前景看起来也很不错,被喻为新旧经济动能转换的引擎。然而,现实的情况是,“智能”的前面是“人工”;想要在行业中应用人工智能,补课就避免不了。这就是吴明辉在2018年初所提出的人工智能行业落地三步走,或企业数字化转型三步骤:第一步是数据在线化、第二步是数据分析与挖掘、第三步才是人工智能。其中的第一步“数据在线化”就是需要人工补课的过程。
如前所述,人工智能算法需要符合一定规格的输入数据,才能玩转。简单理解,就是需要带有标签的数据,例如人工方式给一张图片打标签为“花”,那么人工智能算法在学习了数千张甚至上万张被标注为“花”的各种姿态的花卉图片后,就能用于识别一张新的图片是否为花卉图片或者非花卉图片。这个打标注的过程,一是需要规范化、标准化和可机读的行业知识,二是需要用人工方式给行业数据进行分类和打标签,这个“数据在线化”的过程是一个必不可少、没有捷径可走的过程。
明略数据也在所选择的公安、金融和工业与物联网三个行业中,经历了这样痛苦的过程。“人工智能想要切入行业,就要提取行业知识,这只有两种途径:要么让行业专家学习人工智能知识后再把行业数据转换为人工智能算法能理解的可机读数据格式,或是让人工智能专家去学习行业知识后再做同样的转换。两者相比,后者相对容易些。”吴明辉介绍说,明略数据就是这样“啃”下了人工智能的行业落地“硬骨头”。
以公安行业为例。2017年,明略数据选择了30多个有代表性城市中的不同警种,派了自己的人工智能工程师团队进驻这30多个城市的警力团队,用人工方式吸取了基本上所有警种的数据知识。“每个团队6-10人,至少进驻一个城市达半年的时间,对方也给予一定人力资源配合,双方团队通过不断的头脑风暴,按人工智能算法的需要,用人工方式学习了所有警种的数据知识。”吴明辉回忆这段过程,“不同城市的不同警种都由不同的技术供应商建设了IT系统,数据不统一、不标准化、数据混乱的情况非常普遍。我们花了很大代价去做数据的理解、清洗、融合,为后面的人工智能算法铺路。”
“数据在线化”无疑是极为艰苦的过程,然而这个阶段一旦完成,后面就能发挥人工智能的巨大威力。以明略禁毒大数据平台为例,传统上公安基于关系数据库的技术思维,围绕“人、地、事、物、组织”等要素建立数据关联库、要素库、专题库,只能提供信息查询、检索方面的实战支撑;明略平台则依据人工智能算法对数据进行了重新标注和知识重构,建立了基于人工智能的数据研判体系,特别是以社交通联轨迹为切入点,结合特征识别和机器学习等手段,建立涉毒违法犯罪人员及团伙的识别、挖掘和预测模型。2017年9月,东部沿海某市公安局利用明略禁毒大数据分析平台挖掘出了一个高危涉毒嫌疑人,进而拓展出该嫌疑人关联关系网络图,成功挖掘出一个分布在多省的制贩毒网络团伙。这个案例也入选了中国信息通信研究院于2018年4月推出的《知识图谱白皮书(1.0)》。
“明略数据是助力企业数字化转型的启动器,人工智能落地各行业需要三步走,最核心的就是数据在线。我们需要把行业知识真正梳理清楚,明略与行业的顶级专家思考行业的本质知识体系是什么,如何把数据真正地标注在行业知识体系中。只有这个工作做好,我们的人工智能才能真正地落地到各行业。”吴明辉反复强调。
小公司撬动行业大数据
“大数据已经不能称为一个产业了。”在谈到对如今大数据发展的观点时,吴明辉认为大数据已经成为社会公共基础设施,应该由BAT、华为等大公司主导建设,而创业公司的机会则在于行业应用,例如用人工智能挖掘行业大数据。
然而,技术主导型的创业公司想要在行业中找到有效的大数据与人工智能落地的商业模式,谈何容易。IBM于近期发布了一份全球高管调查报告,该报告以“传统企业的逆袭”为主题,核心观点是由于传统行业里的大企业拥有社会上80%的行业数据,但这些数据难以被互联网公司搜索和利用到,因此这80%的行业数据就是传统企业应对跨界竞争的互联网公司的“本钱”,也是互联网公司试图进入行业领域的门槛。
然而,传统企业手里所掌握的80%的行业数据,对互联网公司来说是门槛,对创业公司来说也是门槛。明略数据能够获得腾讯领投的C轮10亿人民币投资,其根本在于“明略致力于解决AI落地体验问题,为客户带来实际价值。在过去的四年中,明略已经在安防、金融和工业与物联网三个行业积累了相当多案例,现在已经进入快速发展阶段”,腾讯投资董事总经理姚磊文表示。
明略数据之所以能积累相当多的行业案例,与省、市级公安局、交通银行、×××、光大银行、中国中车、上海地铁等行业标杆客户展开多方合作,这除了公司现有的430多位员工、75%左右为技术精英、核心团队来自清华和北大等名校、在国际学术会议上发表多篇论文等外,更重要的在于明略数据一直在踏实地找到可以撬动行业大数据的方法和路径:驻场科学家、当地人才组成的项目交付团队、区域运营中心、灵活团队激励方式等等。
获得C轮融资之后的明略数据,加强了在推动大数据和人工智能落地方面的投资。2018年2月,前中国长城计算机深圳股份有限公司电脑事业部总经理、航天信息股份有限公司集团销售总监兼市场营销部部长、航天信息系统工程有限公司总经理、
千方科技股份有限公司副总裁郑农先生,×××明略数据担任总裁;前Monster WW &
中华英才网人力资源副总裁、AMD、Nokia人力资源总监韩建红女士,则同时×××明略数据并担任人力资源副总裁。其中,郑农先生长期服务于公安、交通、税务等领域客户,对战略、销售、行业产品等业务内容都有丰富的经验,对政府需求也有深刻的理解。
除了加大人才投资外,吴明辉还准备用C轮融资加大获得客户资源的力度和强化客户忠诚度,为此“我们将积极的深化和各个区域做的好的IT公司合作”。实际上在各地都有属于当地的IT公司,包括当地的系统集成商、软件开发商、解决方案商等,这些当地的IT公司有着丰富的本地客户资源以及客户忠诚度。以前,明略数据与这些当地的IT公司主要以合作伙伴的形式合作,未来也会考虑以投资的方式进一步强化和最终客户的连接。
参与编写中国信息通信研究院的《知识图谱白皮书(1.0)》(2018年4月)是明略数据在推进知识图谱的普及以及提升行业对于“数据在线化”认知的努力。简单理解,知识图谱就是建立数据与数据之间的多边关系,进而形成知识。过去,知识图谱的形成是靠科学家以人工方式总结自然物理等规律,再把形成好的知识结构应用到不同的数据上进行关联。现在,随着大数据的发展,人类发现知识规律的方式已经转变为通过大数据分析、挖掘和关联的自动化和智能化方式来形成知识。可以认为研究知识图谱算法的知识工程是人工智能的一个分支学科,可用于深度学习算法的数据预处理和准备。
2018年3月,IDC中国发布了《中国知识图谱应用市场,2018》创新者研究报告,评选出了中国知识图谱市场上5家创新型公司,明略数据就名列其中。根据IDC:从2010年至今,知识图谱相关市场出现了近50家公司,上线近百个产品;既有大型互联网公司如百度、腾讯、阿里、搜狗,又有传统解决方案商如东软、北大医信、鼎富科技、中兴等,还有专注在不同行业的创新型公司。
明略数据之所以能够入选IDC中国知识图谱创新型公司行列,这与明略数据去年8月推出的产品化平台相关。2017年8月,明略数据发布了行业人工智能大脑——明智系统,通过面向AI的大数据治理产品CONA把海量多源异构数据治理成行业知识,再基于知识图谱数据库蜂巢(NEST)完成行业知识图谱存储,随后通过行业大脑SCOPA的机器学习、符号推理等技术实现秒级运算和在线分析挖掘。在这个技术平台的基础上,逐步构建公安大脑、金融风控大脑、工业安全大脑等,最后通过企业级人机交互机器人小明(LiteMind)完成用户与平台的交互。
正是选择了开发一个技术平台的方式,把各种人工的知识、经验与积累都固化到可自动化运行的平台上,才让明略数据有可能逐渐摆脱人工输出和治理数据的艰苦环节,逐步走上自动化方式完成的数据收集、整理、治理、融合等人工智能启动工作。也正是基于这样一个技术平台,在提供服务的近百位客户中,明略数据为公安行业实现5-20%的破案率提升、帮助金融行业风险监测效率提升3000倍、为工业提供准确率大于98%的故障诊断系统。
吴明辉透露,2017年明略数据实现了1亿规模的营收。虽然还没有实现盈利,但坚定的把收入和融资都将用于投资行业AI的研发,吴明辉认为这样做很值得。“希望有一天,我的墓志铭上能这样写:明略所留下的技术平台,能够为几个行业创造真正的价值,真正开启了行业经济的智能时代。”这就是吴明辉的技术平台梦想,他说:“真正成功的企业是有耐心的”。(文/宁川)
原文地址:http://blog.51cto.com/cloudtechtime/2105937