关于机器视频理解

这次和BOSS讨论起AI 方面的东西,说到机器能够经过训练识别静态图片。被同事和老板反问一句那对于动态视频的理解呢?

当时也是一下子焖了。回来路上就想到了LSTM 网络不就是为解决这些需要关联前后场景的东西诞生的吗,而且已经很成熟了。

长短期记忆网络作为RNN的一个分支是十分成功的,特别在自然语言处理(NLP)等方面得到很大应用

哎说来说去还是学习ML的时间太短。

至于模式识别和机器学习的区别。以自己浅薄的知识认为模式识别需要手动编写提取特征的代码,编写分类器。但是机器学习不需要!

所有的特征提取全部机器自己完成,被编码在了NN的隐藏层中。苹果已经使用AI改进合成图像的品质,那将来是否也能改善模拟器的品质呢?

最后一点 现在的AI绝对已经不是很多年前那个人为控制编写规则的AI了,只有理解这点才能理解为何现在AI这么引起关注(当然资本的炒作也是很大部分原因)

时间: 2024-12-20 07:10:30

关于机器视频理解的相关文章

机器阅读理解中文章和问题的深度学习表示方法

/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 注:本文是<深度学习解决机器阅读理解任务的研究进展>节选,该文将于近期在"深度学习大讲堂"公众号发布. 2.1文章和问题的表示方法 用神经网络处理机器阅读理解问题,首先面临的问题就是如何表示文章和问题这两个最重要的研究对象.我们可以从现有机器阅读理解相关文献中归纳总结出常用的表示方法,当然这些表示方法不仅仅局限于阅读理解问题,也经常见于NLP其他子领域中. 图4.文档表示方法:

平安金融壹账通获机器阅读理解顶级赛事(SQuAD)世界第一

平安金融壹账通又有重大突破!继在人类情绪理解竞赛多次登顶之后, 平安金融壹账通GammaLab又在另一项国际顶级赛事上斩获第一.近日,在由斯坦福大学发起的机器阅读理解竞赛(Stanford Question Answering Dataset,SQuAD)中,平安金融壹账通以领先的技术脱颖而出,位列榜单第一位. SQuAD被誉为自然语言处理领域金字塔尖的比赛,旨在促进智能搜索引擎的发展.该赛事吸引了来自谷歌.微软亚研院.阿里达摩院.科大讯飞.IBM以及复旦大学等最顶尖的企业及学校的激烈角逐.平安

再看“陈伟视频”理解多态机制 ——你还记得“橘子,苹果的例子么”

"接口你觉得是什么?"在我没有回复这集视频之前我会直接说解耦.为什么是解耦,可能我当时觉得只要在B层和D层中穿插一层,那么B层就不会直接调用D层的类的方法,这样子就达到了解耦的效果.后来我才发现了我敲代码的一个误区,那就是我在敲机房收费系统的时候仅仅按照七层的样式,每定义一个接口的时候就实现一个类,导致我的理解就是一个接口仅仅对应一个类.但是接口仅仅只是这样子的么? 我想陈伟视频49集给了我一个很好的启发--多态. [回顾] 有个只进不出的盒子,水果有两种苹果和香蕉,原始重量分别是50

深入理解计算机系统(第二版)----之三:程序的机器级表示

计算机执行机器代码,用字节编码低级的操作,包括处理数据.管理存储器.读写存储设备上的数据,利用网络通信,编译器基于变成语言的原则, 目标机器的指令集合操作系统遵循的原则,经过一系列阶段产生机器代码,gcc c语言编辑器以汇编代码的形式输出,汇编代码是机器代码的文本表示,给出程序的每一条指令.然后gcc调用汇编器和链接器,根据汇编代码生成可执行的机器代码. 本章,近距离观察机器代码和汇编代码. 机器级的实现,被高级语言屏蔽了,用高级语言编写的程序可以在很多不同的机器上编译和执行,而汇编代码则是与特

基于Deep Learning 的视频识别方法概览

深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者.互联网视频在最近几年也特别火,短视频.视频直播等各种新型UGC模式牢牢抓住了用户的消费心里,成为互联网吸金的又一利器.当这两个火碰在一起,会产生什么样的化学反应呢? 不说具体的技术,先上一张福利图,该图展示了机器对一个视频的认知效果.其总红色的字表示objects, 蓝色的字表示scenes,绿色的字表示activities. 图1 人工智能在视频上的应用主要一个课题是视频理解,努力解决"语义鸿沟"的问题,其中包括了:    

LFS构建逻辑理解

严格来说,LFS只能称为“pseudo LFS”,WHY? 因为LFS归根结底,还是基于已有的操作系统平台构建而来,并非真正的从0开始,它没有突破所谓“鸡与蛋”的死循环:但它确实有助于理解Linux的运行机理,通过刻意营造一个尽可能接近于原始状态的最小运行环境,给用户一种“接近从0开始”的系统DIY体验. 一.必须理解的概念 C的编译与链接,是一个将源代码转换成可在硬件上运行的程序的过程,从源代码到程序执行,通常需要5步:预编译.编译.汇编.链接.动态加载(动态链接).编译是把人类编写的程序代码

Linux基本功杂记——[017]——LFS构建逻辑理解

严格来说,LFS只能称为“pseudo LFS”,WHY? 因为LFS归根结底,还是基于已有的操作系统平台构建而来,并非真正的从0开始,它没有突破所谓“鸡与蛋”的死循环:但它确实有助于理解Linux的运行机理,通过刻意营造一个尽可能接近于原始状态的最小运行环境,给用户一种“接近从0开始”的系统DIY体验. 一.必须理解的概念 C的编译与链接,是一个将源代码转换成可在硬件上运行的程序的过程,从源代码到程序执行,通常需要5步:预编译.编译.汇编.链接.动态加载(动态链接).编译是把人类编写的程序代码

VSAM:视频监控系统 A System for Video Surveillance and Monitoring

VSAM(VideoSurveillance and Monitoring)视频监控系统 Robotics Institute CMU 1:引言 2:试验床介绍 3:基本的视频分析算法:运动目标检测,跟踪,分类,简单行为识别 4:地理空间模型,感知网络标定,三维地理位置估计,目标图形显示 5:多摄像机协作 6:成果展示及未来的研究计划 1 引言 VSAM可自动解析场景中的人和车,检测目标并按语义分类,如人.人群.车,以及在此基础上的行为分析,如走动.奔跑.利用VSAM,单个人即可监控复杂区域,跟

我的项目经验总结——负载均衡的理解和实战:2

前言 Talk is cheap. Show me the code 你的问题,在于想得太多,而做得太少. 环境准备 需要一台性能较佳的主机 + vmvare. 我用的是vmvare fusion + MacBook Pro,机器的操作系统均为 CentOS 6 64位,系统内存设置为1024M,因为我内存是16G,如果没条件的就设置内存为比较低的,比如256M…… 配置sshd服务 如果要能完全掌控虚拟机(物理机也是一样的),那么最好(必须)要开启ssh服务. 先查看是否启动(如果已经启动了,