Activity Recognition行为识别

暑假听了computer vision的一个Summer School,里面Jason J. Corso讲了他们运用Low-Mid-High层次结构进行Video Understanding 和 Activity Recognition的方法,受益颇深,在这里把他的方法总结一下:

-------------------------------------------------------------------------------------------------

1. 层次结构表示:

  • 底层part 重用
  • 每个object都是一个由有向和无向边连接起来的混合图
  • 底层通过非线性学习让原子节点形成时空线、平面和区域

人的活动呢,就是这些object在中层和高层连接的混合图

-------------------------------------------------------------------------------------------------

2. Motion Perception——STS

Different action stimulate different subpopulation of cells.

-------------------------------------------------------------------------------------------------

3. Activity Recognition

Corso的方法:

  • Low-Level:底层最effective的做法是Bag of Features,特征为bottom-up / low level的时空特征,随着时间和层次不断update。通过模版进行底层object检测;
  • Mid-Level:中间层从images中检测、跟踪2D骨架pose,并通过背景内容分析动态pose;
  • High-Level:高层活动组合方法为,将不同时间点的feature组成时间-概率模型。时间上进行feature的时空跟踪,概率上根据组成语法进行概率模型的组合。
  • Recognition的另一种表示方法:Segmentation

思想:建立Space-Time Patch Descriptors,组成visual Words直方图,建立多通道分类器。

找出shikongHarris角点:

要求在feature上进行Densely Sample而非Sparse Sample。

提取Action Feature:f,用HOG/HOF描述

Space-Time Patch描述子形成histogram。每个histogram,是特征点在x,y,t三个分量上的直方图。

但是采用HOG、HOF存在问题,就是只能从前后帧去看,而不能考虑整个球的特征变化。出于这一想法,提出了HOG3D, 该特征在BMVC08中有文章进行具体描述,此处不予赘述,大家有兴趣去看文章吧。

-------------------------------------------------------------------------------------------------

4. 行为轨迹

采用 KLT: Kanade-Lucas-Tomasi Feature Tracker 进行特征点的跟踪,可作为局部特征检测的辅助手段。

  • Trajectories by Local Keypoint Tracking
  • Use Dense Trajectory(Dense sampling can improve object recognition and action recognition)
  • CVPR 2011 Wang et al. “Action Recognition by Dense Trajectories.”中提出了一种方法,用一个单密度光流场跟踪轨迹
  • 用HOG/HOF/MBH进行轨迹点描述

-------------------------------------------------------------------------------------------------

5. Action Bank

图中所示为Action bank的基本思想<CVPR 2012: Action Bank: A High-Level Representation of Activity in Video>

Action bank :

二维图像识别问题中,object bank的分bin统计方法,视频中的action bank就是搞成三维统计(加一维时间)

  • classifier 使用SVM分类器:

e.g. 对于打篮球这个action,根据高层表现,将jumping ,throwing, running 加入正样本,将biking,fencing,drumming加入负样本,用SVM进行打篮球二类分类训练。

PS: 作者曾使用L1-Regularization 和 随机森林,都没有明显的改善。

  • 实现Action Bank的建立:

1.  选取UCF上的50个action,KTH上6个action和visint.org上的digging action,组成205 templates totally

2.  每个action选择3-6个不同视角、style或运动节奏的examples

3.  平均分辨率:50×120pixel;40-50frames/example

简单的说呢,就是根据不同视角、style和运动节奏来描述一个templates,由此组成了205个模版,描述57个action。

  • 关于模版

1.  只要一个新的视点/运动节奏/style被找到了,就选择该模板

2.  每个template都由人工裁剪到时空范围内都有human action的大小

Action Bank分类结果:

-------------------------------------------------------------------------------------------------

6.  基于Human Pose方法的Activity 识别

  • 将人分为不同part,进行各部分的姿势估计可以清晰的进行model描述。

  • 3D Human Pose Estimation:

-------------------------------------------------------------------------------------------------

7.  基于Parts的Human Pose Estimation

模型结合了局部appearance和对称结构,有多篇文章涉及模型估计:

Pictorial Structures (Fischler & Elschlager 73, Felzenswalb and Huttenlocher 00) 
Cardboard People (Yu et al 96) 
Body Plans (Forsyth & Fleck 97)  
Active Appearance Models (Cootes & Taylor 98) 
Constellation Models (Burl et all 98, Fergus et al 03)

采用deformable part model

Slide credit: D. Ramanan.  Method is from Yang and Ramanan, CVPR 2011.

Result:

  • Dynamic Pose based Activity Recognition

1. For skeletal pose, we construct a k-means codebook of 1000 visual words from 24-dimensional skeletal pose data using Euclidean distance. For dynamic pose, we construct codebook using our specific distance function.

2. For classification we use many one-versus-one histogram intersection kernel SVMs.

3. 处理dynamic pose和全局context都在动的情况,用 HoG3D and Dense Trajectory可得better效果。

-------------------------------------------------------------------------------------------------

9.视频分割:Beyond Points for Video Understanding

标准方法:

  • meanshift
  • Graph-Based
  • Hierarchical graph-based
  • Nystrom normalized cuts
  • Segmentation by weighted aggregation

ECCV 2012 Xu, Xiong and Corso的方法:将视频看做一个流,根据流向和时间上的马尔科夫假设建立一个估计构架,进行video分割。

Segmentation: S = {S1, S2, ... , Sm}

Input Video: V = {V1, V2, ... , Vm}(时间序列上的输入流)

取S*=arg min E(S|V)

在一个layer的分割中采取:

在整个hierarchy中采取同样假设:

<ECCV 2012 Xu, Xiong and Corso>

from: http://blog.csdn.net/abcjennifer/article/details/7976145

时间: 2024-10-25 22:08:41

Activity Recognition行为识别的相关文章

Activity Recognition from Silhouettes using Linear Systems and Model (In)validation Techniques 利用线性系统对人体轮廓行为识别及其建模验证

Duanxx的论文阅读: Activity Recognition from Silhouettes using Linear Systems and Model (In)validation Techniques 利用线性系统 对人体轮廓行为识别 及其建模验证 ? ? ? ? ????????????????????????????????????????????????????????????????--2015-04-27 ?????????????????????????????????

COMP255 Human activity recognition

Assignment: SDLC for human activityrecognition projectCOMP255 Human activity recognition @MQ S2, 2019 (updated on 11thAug 2019)This project aims to develop a human activity recognition IoT application toevaluate students’ knowledge in SDLC. This is a

An Overview of Symbol Recognition符号识别综述

ContentsIntroduction. ....................................................................................... 524History. ........................................................................................ 524Evolution of the Research Field. ...

基于Deep Learning 的视频识别方法概览

深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者.互联网视频在最近几年也特别火,短视频.视频直播等各种新型UGC模式牢牢抓住了用户的消费心里,成为互联网吸金的又一利器.当这两个火碰在一起,会产生什么样的化学反应呢? 不说具体的技术,先上一张福利图,该图展示了机器对一个视频的认知效果.其总红色的字表示objects, 蓝色的字表示scenes,绿色的字表示activities. 图1 人工智能在视频上的应用主要一个课题是视频理解,努力解决"语义鸿沟"的问题,其中包括了:    

图像处理方向

以下仅是了解的一些图像处理方向,实际不止这些: 1.搜索方向:基于内容的图像或视频搜索.手段:必须有很强的编程能力,很好的图像处理和模式识别的背景. 2.医学图像方向:a)图像分类是对病种进行分类.b)目标检测是检测病灶的位置信息.C)医学图像分割的目的就是将图像中感兴趣的区域清楚的提取出来,这样就能为后续的定量.定性分析提供图像基础,同时它也是三维可视化的基础.d)医学图像配准是指对于一幅医学图像通过一种或一系列的空间变换,使它与另一幅医学图像上的对应点达到空间上的一致.配准的结果应使两幅图像

行为识别特征提取综述

行为识别特征提取综述   摘要   人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程.特征提取过程受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性.本文将较全面的总结了目前行为识别中特征提取的方法,并将其特征划分为全局特征和局部特征,且分开介绍了其优缺点. 关键字: 行为识别 特征提取 全局特征 局部特征 1. 前言   如今人体行为识别是计算机视觉研究的一个热点,人体行为识别的目标是从一个未知的视频或者是图像序列中自动分析其中正

Zxing图片识别 从相册选二维码图片解析总结

Zxing图片识别 从相册选取二维码图片进行解析总结 在Zxing扫描识别和图片识别的解析对象是相同的 本文分三个步骤: 1 获取相册的照片 2 解析二维码图片 3 返回结果 1) 获取相册照片 google对4.4的uri做了点改动  为了适配多种手机 需要做一个判断版本 在Activity中开启相册: Intent innerIntent = new Intent(); // "android.intent.action.GET_CONTENT" if (Build.VERSION

state-of-the-art implementations related to visual recognition and search

http://rogerioferis.com/VisualRecognitionAndSearch2014/Resources.html Source Code Non-exhaustive list of state-of-the-art implementations related to visual recognition and search. There is no warranty for the source code links below – use them at you

总结一些机器视觉库

通用库/General Library OpenCV   无需多言. RAVL  Recognition And Vision Library. 线程安全.强大的IO机制.包含AAM. CImg  很酷的一个图像处理包.整个库只有一个头文件.包含一个基于PDE的光流算法. 图像,视频IO/Image, Video IO FreeImage DevIL ImageMagick FFMPEG VideoInput portVideo AR相关/Augmented Reality ARToolKit