运动识别之HOJ3D和HMM

http://cvrc.ece.utexas.edu/Publications/Xia_HAU3D12.pdf

View Invariant Human Action Recognition Using Histograms of 3D
Joints


The  HOJ3D computed
from the action depth sequences are  reprojected using LDA and then clustered
into k posture  visual words, which
 represent  the  prototypical  poses  of
 actions.  The temporal
evolutions of  those  visual  words  are modeled
by discrete
hidden Markov models (HMMs).


特征定义

In this representation, the 3D space
is partitioned into n bins using a
modified spherical coordinate system. We manually select 12 informative joints to
build a compact representation of human
posture. To make our representation robust against minor posture variation,
votes of 3D skeletal joints are cast into
neighboring bins using a Gaussian weight function.

we acquire  the
 3D locations of 20 skeletal joints
 which  comprise  hip  center,  spine,
 shoulder  center, head,
L/ R shoulder, L/ R elbow, L/ R wrist, L/ R hand, L/ R hip, L/  R knee, L/
 R angle and L/ R foot.

we  compute
 our  histogram based  representation of postures
 from 12 of the 20 joints, including
 head, L/  R elbow, L/  R hands, L/  R knee, L/ R
feet, hip
center  and  L/  R hip. We take the hip center  as the
center of
 the  reference  coordinate  system,  and
 define  the x-direction
according to L/ R hip. The rest 9 joints are used to compute
the 3D spatial histogram.

要达到视不变(不同视角下相同姿态正确归类):We
achieve this by
 aligning  our  spherical  coordinates  with
 the  person’s specific
 direction。We  define
 the center of the spherical
coordinates as the  hip center  joint.Define
 the  horizontal  reference  vector  α  to
 be  the  vector from
the left hip center to  the  right hip center  projected
on the
horizontal plane (parallel to the ground), and the
zenith reference vector θ as the
vector that is perpendicular to the ground
plane and passes through the coordinate center.

partition the 3D space into n  bins

The  inclination angle
is divided into 7 bins from  the zenith vector θ: [0,
15], [15,
 45], [45, 75], [105, 135], [165, 180]

Our HOJ3D descriptor is
computed by casting the rest 9 joints
 into  the  corresponding  spatial  histogram
 bins.

To  make
 the representation robust against
minor errors of joint locations, we
vote the 3D bins using a Gaussian weight function:

For each
 joint,  we  only  vote  over  the  bin
 it  is  in  and  the  8 neighboring bins. We
calculate the probabilistic voting on θ and
 α  separately since they are independent (see Fig. 4).
The probabilistic voting for each
of the 9 bins is the product of the
probability on α  direction and θ direction. Let the
joint

location
 be The  vote  of
 a  joint  location  to  bin  is 

输入为20*3(20个关节点,xyz3维空间坐标),输出为84位HOJ3D特征

特征为84维向量,水平方向12,垂直方向7

1,12个关节点局部坐标的计算:1,根据L_HIP和R_HIP的连线方向计算转换后的坐标
; 2,计算相对于HIP_CENTER的坐标

2,之后计算两个偏转角 vector
 α 和 vector θ

3,在每个关节所属的bin中的8个邻域内,按双方向的单高斯分布乘积投票



特征降维

Linear  discriminant  analysis  (LDA)  is
 performed  to extract
the  dominant  features.

降维的目的是得到区分度更大的9个维度信息

输入为84维HOJ3D特征,输出为9维降维特征


特征聚类

We cluster the
vectors into K clusters (a K-word vocabulary) using K-means. Then
each posture is represented as a  single number of a
 visual word.

聚类是为了减少观察特征表示,训练阶段需要把所有观测数据(所有动作,每一个动作包含若干帧,每帧的20个骨骼节点经过LDA降维成9)在9维空间中聚类,可以得到25个聚类中心的坐标(9维),依次标号

在识别阶段,将LDA之后的特征,分配到最近邻的聚类中心,记录其标号,作为HMM的输入参数

训练阶段,输入为所有动作的9维特征,输出为25个聚类中心

识别阶段,输入为每一帧的动作特征(9维),输出为距其最近的聚类中心的标号


动作识别

the HMM gives a state based representation
for each action.  After forming the models for each activity, we take an
action sequence and
 calculate  its  probability  of  a
 modelfor
 the observation
 sequence, for every model, which
 can be solved using the forward
algorithm. Then we classify the

action as the one which has the largest posterior probability.

训练阶段,输入为每一类动作的时序标号,输出为HMM模型参数

识别阶段,输入为某一动作的时序标号,输出为前向概率即模型匹配度最大的动作模型 —— 识别结束



来自为知笔记(Wiz)

运动识别之HOJ3D和HMM,布布扣,bubuko.com

时间: 2024-08-04 22:07:55

运动识别之HOJ3D和HMM的相关文章

基于Aforge的物体运动识别-入门

基于Aforge的物体运动识别-入门篇chatbot人工智能机器人开发,提供教学视频>>>   0 收藏(2) 本文来自http://blog.csdn.net/hellogv/ ,引用必须注明出处! 最近看到越来越多人在做物体运动识别(例如:"第六感"中的指套),而且我最近也有点闲空,所以也来玩玩.....大多数人都是用Opencv来做,那我就不做重复的工作了,换个别的开源类库~~~Aforge. 来自百度知道的Aforge介绍:AForge.NET 是一个专门为开

基于视觉的人的运动识别综述

人的运动识别 ,可以简单地看成一个时变数据的分类问题 ,包括运动的表示和运动的识别两部分 人运动的类别 人的运动可以分为三类 : 动作 ( movement ) .行为 ( activity) 和行动 ( action) , 这三类运动分别处于三个不同复杂程度的层次上. 动作是运动的基元 ,是最基本的运动 , 是形成其他复杂 . 高级运动的基础. 一般来说动作在执行过程中会持续较短的时间 ,其识别方法一般可以采用几何或概率统计的方法. 譬如 ,打网球时挥动了一下球拍 ,这就是一个动作. 行为是指

Behavior Recognition via Sparse Spatio-Temporal Features 基于稀疏时空特征点的运动识别

Duanxx的论文阅读: Behavior Recognition via Sparse Spatio-Temporal Features 基于稀疏时空特征点的运动识别 ——Duanxx ——2015-04-24 1.Inreoduction In this work we develop a general framework for detecting and characterizing behavior from video sequences, making few underlyin

HMM 系列之一:Introduction

转自:http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html Introduction 经常,我们希望找出在一段时间里经常出现的一些模式,例如一个人经常使用的命令,句子里的词组序列,语音中的语音序列. 本系列文章包含三部分: 1.介绍概率模式系统: 2.预测的系统与观察的系统不同: 3.考察能够通过建模的系统解决的问题,例如天气预测. http://www.comp.leeds.ac.uk/roger/Hid

Activity Recognition from Silhouettes using Linear Systems and Model (In)validation Techniques 利用线性系统对人体轮廓行为识别及其建模验证

Duanxx的论文阅读: Activity Recognition from Silhouettes using Linear Systems and Model (In)validation Techniques 利用线性系统 对人体轮廓行为识别 及其建模验证 ? ? ? ? ????????????????????????????????????????????????????????????????--2015-04-27 ?????????????????????????????????

与计算机之间的另一种沟通方式 ——“手势识别”

手势是无声的语言.人们在生活中借用手势,来表达各种各样的感情.现在,人还可以与计算机之间进行手势互动. 与人之间的手势互动很容易理解,与计算机之间是怎么实现的呢? 手势分割 想要使计算机识别人的手势,首先得将手势从背景中分割出来.因为计算机采集手势信息的同时,也会采集到手势所处的场景信息. 手势分割通常采用以下几种方法: 用黑色或白色的墙壁做背景,着深颜色服装,尽可能简化背景.要求人手戴上特殊的手套来强调手部也可,总之在环境上要突出显示手部. 采集各种手势在各个时刻.不同位置.不同比例的手型图像

行人检测

最近一直在看行人检测的论文,对目前的行人检测做大概的介绍. 行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智能机器人等领域.从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,个人觉得主要还是在性能和速度方面还不能达到一个权衡. 1.行人检测的现状(大概可以分为两类) (1).基于背景建模:利用背景建模方法,提取出前景运动的目标,在目标区域内进行特征提取,然后利用分类器进行分类,判断是否包含行人: 背景建模目前主要存在的问题:(背景建模的方法总结可以

第六十四篇、OC_计步器

计步器的实现方式主要有那么两种 1.通过直接调用系统的健康数据,基于HealthKit框架的,但是貌似是一小时更新一次数据.如果要实时获取步数,这种方式并不是最佳. 2.基于CoreMotion框架,顾名思义就是加速计/加速度传感器 >最早出现在iOS设备上的传感器之一 >加速计用于检测设备在X.Y.Z轴上的加速度 (哪个方向有力的作用) >加速计可以用于检测设备的摇晃,经典应用场景(例如摇一摇.计步器等) 源码: #import <Foundation/Foundation.h&

一个典型的语音识别系统

一.语音识别技术 语音识别技术,广泛来说是指语意识别和声纹识别:从狭义上来说指语音语义的理解识别,也称为自动语音识别(ASR).其关键技术包括选择识别单元.语音端点检测.特征参数提取.声学模型及语音模型的建立.语音识别技术目前在桌面系统.智能手机.导航设备等嵌入式领域均有一定程度的应用.其主要技术难题是识别系统的适应性较差.受背景噪声影响较大,未来的发展方向应是无限词汇量连续语音非特定人语音识别系统. (1)信号处理及特征提取模块 该模块的主要任务是从输入信号中提取特征,供声学模型处理.同时,它