A novel method for identifying behavioural changes in animal movement data
- A novel method for identifying behavioural changes in animal movement data
-
- 词语翻译
- 相关定义
- 正文
- Abstract
- Introduction
- Methods
- Application to data Northern fur seal
- Discussion
-
词语翻译
- movement data 移动(运动)数据
- gappiness 间隙
- BCPA 行为变化点分析
- compass orientation 方位
- turning angles 转角
- persistence velocity 持久速率
- MLCP 极大似然变化点
相关定义
- 平稳随机过程
指统计特征不随时间平移而变化,即统计特征与时间起点的选择无关。
现实生活中,很难会有严格满足平稳随机过程条件的情况,因此引入了广义平稳随机过程。对于时间序列{X(t)},称其为广义平稳随机过程,当且仅当:
E(X(t))=m x
R x (t 1 ,t 2 )=R x (τ)=E[X(t 1 )X(t 2 )]
其中,m x 为常数,τ 表示时间间隔,R x (t 1 ,t 2 ) 为自相关函数,反映随机过程X(t)在任意两个不同时刻之间的相关程度。
- 平稳高斯过程
根据中心极限定理可知,大量独立同分布的随机变量之和,其分布区域高斯分布。该方法称为随机过程的高斯化。
- 一阶自回归模型AR(1)
假设X t 是平稳、正态、零均值的时序,有
X t =φ 1 ?X (t?1) +ε t ,ε t ?NID(0,σ 2 )
其中,φ 1 指一阶自相关函数,ε t 为t时刻的随机误差,它满足正态分布。
- AR(1)与一元线性回归模型的区别
一元线性回归模型表达了在相同时间t时,一个随机变量与其他随机变量之间的关系,是一个静态模型,即对随机变量的静态描述;而AR(1)表达了在不同时间t时,一个随机过程本身的观测数据之间的关系,即表达了时间序列内部的相关关系,是一个动态模型,即对随机变量的动态描述。
正文
Abstract
论文中将移动数据看作来自于一个连续随机过程的子采样,并介绍了BCPA算法,一种基于似然的方法,它可以分析出显著性结构变化。BCPA算法对存在(时空)间隙和测量误差都具有鲁棒性,同时可以找出那些不易被察觉的结构。
Introduction
Methods
- Orthogonal decomposition of movement data(正交分解)
原始移动数据包括n+1个观测数据,表示在时间T时的绝对位置为Z={X,Y}。将原来的绝对位置Z和绝对方位Φ 转换为速度V 和转角Ψ :
V(T i )=‖Z i ?Z (i1) ‖/‖T i ?T (i?1) ‖
Ψ(T i )=Φ i ?Φ (i?1)
再将两者进行正交分解,得到持久速率V P (t) 和转角速率V t (t)
V P (T i )=V(T i )cos(Ψ(T i ))
V t (T i )=V(T i )sin(Ψ(T i ))
其中,V P 捕捉在一个给定方向上持续移动的倾向和大小,V t 捕捉在给定时间区域内朝垂直方向移动的趋势。此外,这些变量易于构建平稳的高斯自回归时间序列模型。通过直方图或Q-Q图展示移动数据得到经验型结果显示两个变量可有混合正态分布表示,且的V t 均值接近为0。
虽然进行正交分解,但实际中两者不是相互独立的。在论文中,在相互独立的情况下分别对两个变量进行分析。
- Autocorrelated time-series model(自相关时间序列模型)
假设持久速率V P 是来自一个连续时空,平稳的高斯过程W(t) 的样本,同时W(t) 具有以下属性:
W(0)=W 0 ,
E[W(t)]=μ,
Var[W(t)]=σ 2 ,
Corr[W(t),W(t?τ)]=ρ τ
其中0<ρ<1 是时滞1(即两事件间隔为1)的一阶自相关。
对于来自连续过程W=W 1 ,…W n 上在时刻T=t 1 ,…,t n 上的n个观测点,则W i 可描述为
W i =μ+ρ (τ i ) (W (i?1) ?μ)+ε i ,
其中i∈1,…,n,τ i =t i ?t (i?1) ,ε i N(0,σ 2 (1?ρ (2τ i ) )) 。
论文中所给的ε i 的方差感觉有错
对转角速率V t (t) 的分析过程与持久速率V P 相同
- Estimating irregular time-series parameters(估计不规则的时间序列参数)
采用极大似然法估计参数μ?、σ?、ρ ?
μ?=ˉX
σ?=S
ρ?=arg〖max〗 ρ L(ρ│W,T,μ?,σ?)
L(ρ│W,T,μ?,σ?)=∏ n (i=1) ?〖f(W i |W (i?1) ,τ i ,ρ,μ?,σ?)〗
f(W i │W (i?1) ) ?ε i
- Identifying structural shifts
定义CP:
在时间0<t<T 上的一个连续随机过程X(t) ,定义参数集合Θ(t) ,在未知点处T ? 发生变化
Θ 1 ,0<t<=T ?
Θ(t)=
Θ 2 ,T ? <t<=T
从连续过程X(t) 在时间T i 上选择一个时间序列X i 。设n 为第一区域的测量值,满足T n ≡max(T i <T ? ) ,则
L(Θ│X,T)=∏ n (i=1) ?〖f(X i |X (i?1) ,Θ 1 )〗∏ N (j=i+1) ?〖f(X j |X ( j?1),Θ 2 )〗
采用极大似然法估计下列参数
n?=arg〖max〗 n L(Θ│X,T)
μ? j =ˉX j
σ? j =S j
ρ? j =arg〖max〗 ρ L(ρ│X j ,T j ,μ? j ,σ? j )
其中,j=1,2 ,表示所属的区域。称T ? =t n ? 为极大似然变化点(MLCP)
- Identifying models
不同参数的变化对应于不同的行为解释。对于持久速率V P ,μ 的增加对应更快更有方向的移动,σ 的增加显示更多变的移动,高ρ 显示更强的相关性移动。对于转角速率V t ,μ 的增加显示更多转角,高ρ 显示更大的转角直径。
在分析一个CP时,需要考虑8中可能的模型,记为M0-M7,其中M0指三个变量没有发生变化,M1,M2,M3指一个变量发生变化,M4,M5,M6指两个变量发生变化,M7指三个变量都发生变化。
采用信息准则AIC和BIC选择模型。
I A (X,T)=?2nlog(L(Θ│X,T))+2d
I B (X,T)=?2nlog(L(Θ│X,T))+dlog(n)
其中,d为M0-M7的参数个数,M0对应d=3,M7对应d=6(论文中感觉d的值不正确,如下图所示)
- Simulation Study
- Multiple change points
考虑存在多个变化点(CP)的情况,对参数的估计是一个非平凡问题,比较复杂的部分是在一个复杂的过程中确定变化点的数目。论文中采用一个固定大小的窗口遍历整个时间序列,每个窗口中只包含一个变化点。完整的处理过程为:
- 选择窗口长度 30<=l<N
- 在窗口中找到MLCP
- 根据参数μ,σ,ρ ,使用BIC准则确定是否接受具有显著性变化
- 根据3的结果,记录行为变化点的位置和最终估计得参数值
- 移动窗口,重复以上步骤
Application to data: Northern fur seal
Discussion
BCPA不需要先验假设,可以检测出显著的行为变化,并以参数值的方式表示逐渐变化的情况。具有较强的鲁棒性,只要变化比噪声显著,该方法就可以从充满错误的数据中发现行为变化点,且对具有测量时间的不规律或者数据中存在间隙的情况下也适用。
BCPA中,需要对连续时间序列模型的假设进行检验,同时需要人工确定窗口大小,窗口越大,模型选择在辨别更小范围的行为变化所需的成本越大。
该方法提供了一个通用的、鲁棒性、高效的框架来研究时间上存在异质的自相关过程。