产品化机器学习的一些思考

本文由云+社区发表

作者:腾讯技术工程官方号

“如果说互联网是优化信息的存储和传输方式,提升生产要素之间的运行效率;人工智能便是对各个生产要素的升级。”

本人初入职场便从事TOB相关工作,参与了tbds等大数据平台的产品建设,近两年逐渐接触人工智能;目前主要负责TI-ONE机器学习平台,结合自己工作经验,在这里分享一些关于ML产品的思考和实践。

人工智能产品类型

平台-强调赋能

基础支撑/基础平台-通用的ML技术平台,实现常用的算法,形成通用机器学习平台(Spark/TensorFlow等),对外提供API、SDK等,为业务赋能。这类平台聚焦性能、开发效率和预测准确度。

应用-融入场景

突出场景闭环,如利用人脸识别、自然语言处理(NLP)等技术构建新的交互体验和用户场景。

目前市面上看到的人工智能产品都属于弱人工智能的范畴,它们通常专注于某一特定领域,有一定规则边界,是达成既定目标的工具;各个领域的初级岗位最有可能被这类人工智能替代。

人工智能产品流程

数据

让人工智能产品能够运转起来的前提,首先需要寻找和积累大数据,大数据是机器学习平台必需的燃料,有足够大的燃料,平台所跑出的模型精确率会越高。

通常我们会通过中间件工具(KAFKA/tube)进行流转,将数据运输到HDFS等存储平台,包括文本、图片、语音等数据,并对其做数据清洗,特征处理等,便于加载到接下来的神经网络。

算法、训练模型

训练出一个有效的模型的前提,需要数据和算法两者的双管齐下;从计算模型的角度,我们通过所获取并清洗好的一组数据,配置好算法相关的关键参数来构建模型的运行,从而形成了一定的反馈路径,来达到预期的输出结果。

通过数据的灌输,建立起输入-处理-输出(IPO)的关系,加载到神经网络的训练中,学习数据中的规律并产生一个最能契合这些数据的函数表达式。在训练过程中,不断去试错和纠正,去推进模型更为精准的路上。对模型准确度有足够信心,便可把训练完成后的模型部署上去,去预测喂养新数据后的结果是什么。例输入的是人脸图片,那么输出结果便是人脸识别结果。

应用模型

当模型精确度足够高后,便可上线服务,实际运用到我们的系统中。典型的例子是电商系统中基于用户/物品的推荐。

人工智能产品经理的思考点

1.明确产品的定位,找到产品能发挥价值的地方

在做TI-ONE初期,我们的目标是做一个通用/易用性高的机器学习平台,让方便业务接入平台。用户无需关注机器学习的运行细节,如底层用什么计算框架、用多少计算资源、应该怎样配置参数等,将注意力重点放在核心业务,同时也可以享受机器学习带来的便利。

我们把TI-ONE设定为一个拖拽式建模工具而不是类似于jupyter的交互式工具,虽然jupyter有很好的拓展性,但为了降低机器学习使用门槛和释放用户大量写代码的时间和精力,增加受众面,我们选择了把特征处理、算法以模块化的方式来设计,让用户在拖拽组件中,快速完成模型的搭建。

在产品化机器学习的时候,发现大部分工作不是在研究复杂的公式理论,而是如何让用户在使用机器学习的过程中更顺畅,让不同步骤之间的流程如数据的准备、算法参数的填写、模型的训练/测试/筛选/部署等,能够无缝衔接。举个例子,规划及组织平台所需要的数据、用什么方式和工具来统一数据的上传、对数据的接入是否需要提供预览;如何帮助用户获得高质量的数据集,为提炼优质模型提供保障、如何高效率低成本地为数据打标签、把数据价值最大化,这些都是产品经理需要重点耗费精力的地方。

在此引用谷歌大脑高级科学家Martin Zinkevich的一句话“To make great products:do machine learninglike the great engineer you are, not like the great machine learning expert youaren’t”把工程效率提升到极致了,用户才能真正享受到算法带来的便利。

2.产品形态的把握

对于人工智能产品经理,所需的技能SET,不仅包括原型能力、功能逻辑、信息路径、UI设计,算法模型、数据训练等产品背后抽象的逻辑也同样重要。

比如立项一个人工智能产品,我们不能很宽泛地定位要做一个机器写作,这个需求的范围太大,会让后续功能的开发不好收敛。产品经理需要尽量参与到算法开发,了解算法的每个步骤,对涉及的环节有个清晰的概念,并在此基础上寻找和评估是否有产品化的可能性。

再比如我们要做新闻主题分类,首先需要利用网页抓取去各个网站的新闻,一般情况下,新闻网站都会分好类,可以直接记为标签。这个过程是否便可以做成一个产品化的成果。

过去的互联网产品,可能我们偏向埋头于体验、需求,不太关注技术环节;而在AI产品领域,我们必须要深入技术运转流程,才能提升我们做出一个优秀AI产品的可能性。

3.了解用户指标背后的含义

在评估TI-ONE产品用户数据指标时,UV/PV/月活/新增用户数等都是我们会去关注的数据指标。但若只关注实际数值,不去深究背后数据增长原因的话,有时会陷入一定的盲区。比如之前查看产品的统计指标,用户数和日均执行任务数都是一个稳定增长的趋势,但在用户调研中,深入了解了这些在平台上跑的任务,发现有一部分任务大家只用来做调度,并没有去使用平台上的算法模块,刨根问底了这部分用户才知道,因为我们平台上的算法库是黑盒子,出了问题不好定位,不如自己写代码查原因。通过这次对指标的剖析,我们也考虑将目前提供的算法进行开源和引入自定义算法模块,去补充我们对这块功能设计的短板。

4.纵向的业务理解能力

很多人工智能产品往往跟某一垂直行业紧紧挂钩,去解决某一具体问题;这是要求人工智能产品经理去深入整个业务流程的链条,熟悉每一个涉及到的用户场景;并且在场景中,提炼出用户最迫切需求并优化需求点,实现产品的变现。

很多不同行业、领域的人工智能产品其实背后所用到的技术逻辑都大同小异,如人脸识别技术,在安防市场,因人脸难以复制的特性,它代替了门禁卡。在公安领域,警察可以通过人脸识别,在各大重点区域,关口进行人脸的抓拍、识别,对可疑人物的信息可实时推送到警务终端,大大提升破案效率。在银行领域,人脸识别可以支持远程办理业务,刷脸开户,通过它查验身份信息,可免去需求亲自去网点办理的麻烦。

技术是相通,但不同场景的侧重点会有所不同,产品形态也会有所差异;在银行领域,人证比对设备需求会比较强。在公安领域更强调的是后台动态人脸识别系统的使用。

人工智能产品经理需要对业务场景进行反复验证、迭代,从而去判断结果概率是否能达到用户的标准,依照这些判断去做不同的投入策略。因此,了解算法的基本原理和落地的业务场景尤为重要,可以有一个相对清晰的技术框架,并且懂得在技术允许实现的范围内,规划出最优方案。

5.关联信息的能力

做人工智能产品需要我们加深对机器学习相关技术和应用的理解。理解好机器学习的基本逻辑,数学是其背后的原理,如微积分、概率论、线性代数都是机器学习的基础。而这些数学概念和模型往往是抽象、非直观的。

当试着去理顺这些相对复杂的逻辑,可以尝试关联信息的方法,在不熟悉与熟悉的知识之前建立连接,从个人的经验中,去寻找能够与所有要理解信息类比的部分,把枯燥难懂的知识点,与实际生活的例子相结合。

比如说我要学习线性回归,关于线性回归,提供的数学解释是假设自变量与因变量是线性关系,利用最小二乘法拟合自变量权重的一种分析方法。若单是看这段解释的话,会不太容易让人理解线性回归是在描述什么;试着去联想生活中的经验会帮助理解线性回归的概念。针对线性回归这个概念,可以通过房价波动和驱动因素来做联想,假设我们有1000条关于深圳房子的综合数据,每条数据作为一个样本,内含信贷价格、常住人口/户籍人口、工作人口/常住人口、小学生在校人数这些数据看作特征变量,房价为目标变量。线性回归解释的便是这些特征变量对房价波动的影响度。

6.降本提效是推动人工智能发展的最强动力

人工智能技术价值的实现,最终需要落地商业化、为行业带来价值和形成真实有效规模化的刚需来体现。目前大部分人工智能公司在做的是单一的人工智能驱动产品,如自动驾驶汽车算法、零售领域的刷脸支付、医疗领域的人工智能影像分析。所有员工工作中的任务自动化比例将提升,一部分劳动力也会被人工智能所替代。冲击较大的工种为人工客服、流水线工人、银行柜台职员等。

还有一种AI公司,不是去用某种人工智能的能力去替代某一工种的工作,而是完全重塑整个行业的的劳动力配置,比如阿里的无人酒店,从接待到打扫的服务员全都是机器人,他们没有雇佣人类员工,去利用算法取代某种类型的工种;随着低本、高效和优质的服务模式逐渐铺开并且占领市场,高昂的人力成本可能会导致对手们重新调整公司对劳动力配置。

根据来自普华永道的数据:“预计到2030年,AI将能为世界经济贡献15.7万亿美元,这相当于目前印度加中国的生产总值总和,中国公司在其中将起到非常重要和关键的作用。”相信不久的将来,会有越来越多的行业和人工智能结合在一起。如何去挖掘行业的切入点、利用AI去重塑应用场景,为实体行业提升运行效率、甚至颠覆当前的传统的商业模式,提供一套可行的AI解决方案是AI产品经理需要掌握的核心技能。

结语

当有了一定积累,面对工作就会得心应手,使人的行为处于一个稳定的水平,慢慢有了自己的舒适区,时间久了会不愿离开这样的状态。但若一直沉浸在一个自己非常熟悉的领域,难免被固化了行为,不过是日复一日发挥着一个螺丝钉的功效。

切换到AI领域发现,这是个一旦不保持自己技能SET更新状态便会被淘汰的领域,包括在一个项目组内的算法、开发童鞋,也是每天不断在学习,了解当前最前沿的知识。

世界总是不断前进变化和充满着不确定性,保持着自己所积累的技能和可预见/突破的挑战的平衡,逐步爬坡,穿透自己的高墙,才能拥有人生更多的可能性。

此文已由腾讯云+社区在各渠道发布

获取更多新鲜技术干货,可以关注我们腾讯云技术社区-云加社区官方号及知乎机构号

原文地址:https://www.cnblogs.com/qcloud1001/p/10364560.html

时间: 2024-10-01 00:02:53

产品化机器学习的一些思考的相关文章

周志华:关于机器学习的一点思考

https://mp.weixin.qq.com/s/sEZM_o5D6AhyMgvocbsFhw 演讲:周志华 整理:肖琴.闻菲 [新智元导读]机器学习如今大获成功的原因有哪些?如何才能取得进一步的突破?南京大学周志华教授在AI WORLD 2018大会上分享他关于机器学习的一点思考:我们需要设计新的.神经网络以外的深度模型:让智能体在弱监督条件下也能够学习,以及考虑开放动态任务环境下的学习. 播放 震撼!AI WORLD 2018世界人工智能峰会开场视频 南京大学计算机系主任.人工智能学院院

《大数据与机器学习》读书思考

这是一本纯技术类的工具书,里边有许多好的思想与方法供实际工作者使用.对于我这种只会R编程的人来说.读起来是有些吃力!不过随着大数据知识架构的逐步完善,相信这本书会在未来体现出它的价值来. 第一部分  平台篇 实际上,这一部分是讲到了大数据的一些基本概念,以及数据挖掘及实时分析的一般流程.读完这一部分,相当于你在大数据领域可以扫盲了.但是要对里边组件有一个深入理解,就需要你在工作上对它们有常规应用. 这一部分,也是自己总结最多的地方.可能是怕自己大数据掌握的还不是很熟悉的原因吧!总想把架构这一块能

[转] 周志华:关于机器学习的一点思考

各位同学,大家下午好,首先跟大家说抱歉,因为今天我讲的时间不会太长.今天来参加复旦大学智能信息处理重点实验室的学术委员会,感谢实验室的主任周水庚教授给我布置了一个任务,让我在走之前给大家做一个报告.今天主要跟大家分享一下我们关于机器学习的一些非常粗浅的一些看法.只是代表我们自己的认识,谈一下现在机器学习取得的成功背后可能有一些什么样的问题,以及未来可能我们在关注一些什么样的事情. 前段时间我们经常说大数据.实际上现在大家都知道,大数据本身不等于大的价值.数据好像就是一个资源,你要得到资源的价值,

[转载]从机器学习谈起

在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践.这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核.当然,本文也面对一般读者,不会对阅读有相关的前提要求. 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前.相反,我想请大家看两张图,下图是图一:  图1 机器学习界的执牛耳者与互联网界的大鳄的联

转载计算机的潜意识的文章:机器学习的入门级经典读物

在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践.这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核.当然,本文也面对一般读者,不会对阅读有相关的前提要求. 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前.相反,我想请大家看两张图,下图是图一:  图1 机器学习界的执牛耳者与互联网界的大鳄的联

推荐文章:机器学习:“一文读懂机器学习,大数据/自然语言处理/算法全有了

PS:文章主要转载自CSDN大神"黑夜路人"的文章:          http://blog.csdn.NET/heiyeshuwu/article/details/43483655      本文主要对机器学习进行科普,包括机器学习的定义.范围.方法,包括机器学习的研究领域:模式识别.计算机视觉.语音识别.自然语言处理.统计学习和数据挖掘.这是一篇非常好的文章,尤其感学原文作者~          http://www.thebigdata.cn/JieJueFangAn/1308

一文读懂机器学习,大数据/自然语言处理/算法全有了……

原文地址 http://www.open-open.com/lib/view/open1420615208000.html http://www.cnblogs.com/subconscious/p/4107357.html 引论 在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便全然不了解机器学习的人也能了解机器学习.而且上手相关的实践.这篇文档也算是 EasyPR开发的番外篇.从这里開始.必须对机器学习了解才干进一步介绍EasyPR的内核.当然,本文也面对一般读者.不会对阅读有

科普:关于机器学习——《从机器学习谈起》

来源: 从机器学习谈起 本文首先介绍了互联网界与机器学习大牛结合的趋势,以及使用机器学习的相关应用,接着以一个“等人故事”展开对机器学习的介绍.介绍中首先是机器学习的概念与定义,然后是机器学习的相关学科,机器学习中包含的各类学习算法,接着介绍机器学习与大数据的关系,机器学习的新子类深度学习,最后探讨了一下机器学习与人工智能发展的联系以及机器学习与潜意识的关联.经过本文的介绍,相信大家对机器学习技术有一定的了解,例如机器学习是什么,它的内核思想是什么(即统计和归纳),通过了解机器学习与人类思考的近

从机器学习谈起

  有机会一定要去了解 转载于http://www.cnblogs.com/subconscious/p/4107357.html,原文作者:计算机的潜意识 在 本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践.这篇文档也算是 EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核.当然,本文也面对一般读者,不会对阅读有相关的前提要求. 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有