自己动手做AI:Google AIY开发工具包解析

2018年国际消费性电子展(CES)上,最明显的一个趋势是Amazon与Google的语音技术进驻战,如AmazonAlexa进驻到Acer笔电内,Google Assist进驻到KIA汽车内,其他如智能电视、智能喇叭,乃至传统数字录放机TiVo都成为抢占进驻的对象。

Google Assistant

语音识别进驻大战

这是一波新的抢滩战,过去Google具有PC上网的搜寻入口优势,使Google赚取庞大的广告中介收益。但上网的形式在改变,包含走动时对手机「说」、客厅躺卧时对智慧喇叭「说」、或开车时对行车计算机「说」,都要得到搜寻响应,而且是语音响应,这就成了语音识别进驻大战的开端,而且比过去的搜索引擎更激烈。搜索引擎一次还可以显现三、五个结果选项,但语音响应只能逐一念,听完前三个大概就没耐性了,所以第一个响应的答案,将更为重要。

为了让自家的语音识别、认知运算、人工智能等技术更普及,Amazon与Google也推出相关套件,并尽可能平价供应给有兴趣体验的开发人员,例如2016年6月Amazon即以树莓派计算机(RPi 2 Model B)为基础搭配其Alexa软件,就可模块出Amazon Echo的效果,并进行相关开发(详细信息可参考这里)。

https://aws.amazon.com/cn/blogs/china/raspberry-alexa/

Google智能语音,强势出击

Voice Kit

去年,Google也推出开发类似的套件,称为AIY,取自人工智能的AI(Artificial Intelligence),与自己动手做的DIY(Do ItYourself)两字合并而成,意指自己动手做的人工智能套件。Google率先推出语音版本的套件,即Google AIY Voice Kit,而后也推出视觉版本的套件Google AIY Vision Kit。

Google AIY或许受到Amazon的启发,所以也是以树莓派计算机为基础,再搭上必要的硬件外围与零件,构成最基本需求的语音、视觉辨识开发装置,同时也可能受到IBM发起的TJBot项目(同样是以树莓派为基础的语音识别、人工智能应用装置)所影响,追加了纸板外壳与简单的互动接口,例如会三色发光的LED灯号与按钮,但并没有TJBot的摆动手臂(用伺服马达驱动)。

Google推出第一套语音版时(称为V1),所搭配使用的树莓派计算机仍是一般最普及常见的Model B(树莓派3),价格比较高,约35美元。但之后再推出的语音版及视觉版则改采了较便宜的Pi Zero W(无线版的Pi Zero),价格约10美元。

无论视觉版或语音版套件都包含了树莓派在里头,也包含了树莓派所需要的MicroSD记忆卡,另外若是视觉版还额外包含了树莓派用的摄影机模块(V2版),如此语音版套件的价格约49.99美元,视觉版则为89.99美元。

视觉版 VS 语音版

既然视觉版与语音版有价差,那么差在何处?事实上视觉版与语音版有一些相同的配件,如三色LED灯号、按钮、GPIO接脚线路等,两版本的主要差异在于:视觉版的介接板卡(称为VisionBonnet board,语音版则称为VoiceBonnet board)上多一颗图像处理人工智能芯片,也称为VPU(Vision Processing Unit视觉处理单元),即Intel Movidius MA2450,Movidius是Intel于2016年购并的业者。

视觉版

MA2450可以强化视觉运算,减轻树莓派计算机的视觉运算负荷,同时还能执行神经网络的运算工作,此是视觉版要多贵出40美元的主因。当然!视觉版还有提供摄影机与摄影机上盖护镜,但同时没有语音版的喇叭,取而代之的只有简单的蜂鸣器。

语音版

由于语音运算明显比视觉轻量,纯耗用树莓派计算机的运算力即可,不需要额外的加速运算芯片,因而成本与订价可以低于视觉版。

Vision Kit的辨识模型简介

值得注意的是,视觉版有附带三套以TensorFlow为基础的神经网络模型软件:第一套是盘中物辨识,是采开放源代码的神经网络模型项目MobileNets所建构成,可辨识上千个常见的生活用品;第二套可辨识出影像中的人脸,并透过脸部表情分析目前的心情愉悦度,打出愉悦分数;第三套则可辨识影像中何者为人、何者为猫、何者为狗。

此外官网还有列出其他的辨识模型,例如:辨识碗盘内放的东西为何物?辨识自然界的景物等,多数模型也是基于MobileNets所构成,但也有基于SqueezeNet所构成的模型。

视觉版中也附有编译工具软件,可以在工作站或云端上,对模型进行训练、再训练等编译。至于语音版,所附的软件主要是Google Assist的软件开发工具包(SDK)与示范用应用程序(DEMO Application)。

其他配套也包含Google Play应用程序商店的卖架上可以找到Google AIY Projects的手机应用程序(App),可免费下载安装使用,并搭配AIY硬件套件一起开发运用。

结束语

Google在最后也出一些发想题,好激发大家的人工智能开发撰写动力,例如用视觉版套件开发出能辨识各种动植物的人工智能软件,辨识正在行驶的车子是否有偏离车道?辨识您的访客是否满意您家里的节庆装饰等,这些都期望能以视觉版套件的软硬件为基础,更快完成与实现。

原文参考

https://mp.weixin.qq.com/s?__biz=MzU0MTg0ODIzNA==&mid=2247484725&idx=1&sn=6d53e71d6a7f0b4b8aca0d2ab253cf6a&chksm=fb22e2f0cc556be61a07a93a7ce2221d4a866eaeb6ad124c06f7f5dd6051a138c77ab692d524#rd

原文地址:https://www.cnblogs.com/Astar-STEAM/p/9775726.html

时间: 2024-11-06 07:18:56

自己动手做AI:Google AIY开发工具包解析的相关文章

ABBYY FineReader软件开发工具包解析

ABBYY FineReader Engine是一款功能强大的光学字符识别(OCR)软件开发工具包(SDK),集成了ABBYY最先进的文档识别和转换软件技术,如:光学字符识别(OCR).智能字符识别(ICR).光学标记识别(OMR).条形码识别(OBR).文档影像和PDF转换. 如果开发人员需要开发具有以下任一功能的应用程序,可以考虑使用ABBYY FineReader Engine软件开发工具包(SDK): 文档转换 文件归档 文件分类 书籍归档 文本提取 字段识别 条码识别 名片识别 图像预

自己动手做个智能小车(1)

自己动手做个智能小车(1) --介绍及工具材料准备 目前物联网发展很迅速,软硬结合也越来越流行.对硬件有些兴趣的我,也想来做点业余玩具. 这是个业余小作品,可以学习一些基本硬件.单片机,底层软件,Android编程等知识,同时不失趣味性. 直接上图: 怎么每张图有个手机?-- 哈哈那是遥控器. 介绍: 这个小车是一个三轮车,为啥采用三轮:方便.灵活.控制简单,比如要转个弯,只需要把这边的轮子速度降下来,就转过去了:还可以原地旋转,两个轮子速度相同,方向相反即可,这是四轮车办不到的. 问,边上的手

Android开发工具包 Android SDK

Android SDK 是 Android 的开发工具包. Android开发专区 Android是谷歌(Google)公司推出的手机开发平台. 与iPhone相似,Android采用WebKit浏览器引擎,具备触摸屏.高级图形显示和上网功能,用户能够在手机上查看电子邮件.搜索网址和观看视频节目等,比iPhone等其他手机更强调搜索功能,界面更强大,菜鸟教程QKXue.NET认为Android开发工具包 Android SDK是一种融入全部Web应用的单一平台,下图是 Android 手机平台开

自己动手做个智能小车(3)

自己动手做个智能小车(3) --让小电脑运行程序吧 通了电源,也有了初步的规划,我们就把主芯片给接上,并让其工作起来. 这个主芯片就是89C52单片机,有人说,单片机没学过啊,怎么没,没关系,在里,我们就从最简单的入手,然后再慢慢加功能.我们知道学个新程序,一般从HelloWord开始,那单片机同样,也从其本的开始. 51单片机,有40个引脚,其中,芯片从一个U口的左侧开始计数,然后一圈编号,40脚与20脚接电源的正负极.其中,1~8 0~17 39~32 1~28 为单片机的P1 P3 P0

利用Google Chrome开发插件,在网页中植入js代码

Google Chrome是一个很强大的浏览器,提供了各种各样的插件,大大提升了使用了的效率,比如vimium.honx等. Google在提供这些插件的同时还允许用户开发自己的插件. 最近在写js的脚本采集程序,需要测试在网页中的运行情况,因此可以利用Chrome插件进行测试. 1.首先第一步是新建一个文件夹,并新建一个manifest.json文件,内容如下 { "manifest_version": 2, "name": "Js implants&q

自己动手做个微信聊天机器人

长夜慢慢无人聊天, 自己动手做个微信聊天机器人陪自己. 智力太低, 还是让他调戏别人吧. 看了上面的动画图片是不是有人好奇程序是怎么实现的? 解决方案其实很简单: 1. 通过微信的web接口可以实现自动回复.登录.发图片.自动加好友等等的功能, 你可以通过wx.qq.com调试得到接口,当然也可以通过baidu搜索到别人已经弄到的api. 我这里主要用到了登录.扫马登陆.同步联系人.同步消息接口.掉线自动重连.获取图片.获取头像.获取微信群成员.发送图片.发送表情.发送mp3. 撤回消息.发送文

微信公众平台--6.JS-SDK 微信内网页开发工具包

该SDK貌似正在被微信给抛弃的感觉,在我用的时候和官网上许多提到的接口已经不再能用了,记录下自己使用的过程.基本都是照着文档来做的,也就按照文档来写吧. 微信JS-SDK是微信公众平台面向网页开发者提供的基于微信内的网页开发工具包. 通过使用微信JS-SDK,网页开发者可借助微信高效地使用拍照.选图.语音.位置等手机系统的能力,同时可以直接使用微信分享.扫一扫.卡券.支付等微信特有的能力,为微信用户提供更优质的网页体验. 1.绑定域名,先登录微信公众平台进入“公众号设置”的“功能设置”里填写“J

“入职1年,我和做 AI 的同学薪资翻了 2 翻!”

最近在知乎上,关于AI的这个话题又被顶起来,其中,这条回答让人印象深刻: 在这短短的一条信息里,无疑显示出:AI行业缺人,高端岗位80万年薪恐怕也招不来! 据了解BAT等科技巨头今年的春招情况:AI人才招聘并无“收紧”迹象,反倒“短缺”.同时,中国人力资源和社会保障部数据显示,AI行业中国就业市场需求略大于供给,也就是说岗位在抢人. 所以作为未来程序员标配的技能,AI薪酬真这么高么?笔者的朋友刘程程却说出了里面的真相: 入职阿里做AI一年 我和同学薪资“被逼”翻了两翻 作为一个标准程序员在转型与

「雕爷学编程」Arduino动手做(23)——矩形脉冲发生器

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的.鉴于本人手头积累了一些传感器和模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里准备逐一动手试试做实验,不管成功与否,都会记录下来---小小的进步或是搞不定的问题,希望能够抛砖引玉. [Arduino]108种传感器模块系列实验(资料+代码+图形+仿真) 实验二十三:NE555频率可调脉冲发生器模块(方波占空比50%简版) NE555 NE555 (Timer IC)为8脚时基