vehicle time series data analysis

以HADOOP为代表的云计算提供的只是一个算法运行环境，为大数据的并行计算提供了在现有软硬件水平下最好的（近似）方法，并不能解决大数据应用中的所有问题。从具体应用而言，通过物联网方式接入IT圈的数据供应商(Data Provider)所面临的首要问题是数据分析的算法，其次才是算法的并行计算。

以汽车厂商(OEM,Tire1,Vendor,TSP)为例，所面临的大数据问题在 4V(Volume,Velocity,Variety,Veracity/Value)中，最突出的差异是Velocity，即实时性(Real Time)，有些信号的更新周期达到10ms。当然从应用采样和算法处理角度而言，可能并不需要这么密的数据，这就涉及到系统架构的区别，哪些功能放在终端上运行，哪些功能在后台服务器上运行。以发动机转速信号为例，总线上这个信号的周期一般是10ms±5%，如果整个车联网系统要做的只是驾驶员行为分析
（反映车辆运行状态），根本就用不上这么高频度的采样周期，完全可以10s往后台打包发一次数据。但是如果整个车联网的应用是发动机故障诊断或防盗报警，需要的精度就不一样了，正常启动转速低于500rpm几乎可以肯定发动机异常，如果等到30s后驾驶员才得到提示，发动机就该冒烟了。而对于一些事件触发信号，如锁车状态下发动机异常启动，后台服务器判断车辆被盗的时间要求则更高。

IT行业在评估系统采用NoSQL还是SQL的时候，汽车上数据处理首先面临的是如何搜索。不同于传统互联网行业的文本数据，物联网或车辆网面对的都是时间序列数据(Time Series Data)，在这一点上，看股市走势图上各种眼花缭乱的曲线就知道了。当某个信号样本被定义为故障模式后，历史数据里面是否还存在类似的曲线，这在时间序列里被成为相似度搜索(Similarity Search)的问题。如果某个信号曲线总是周期重复，并呈现一定上升或下降趋势，未来能否能对这个信号做出预测，这就是数据预测(Data Prediction)的问题。其它数据相关分析、数据聚类等被统称为数据挖掘(Data
Mining)的技术则建立在结构化数据的基础上，目的在于降低数据维度(Variety)，目前在汽车控制和分析领域的应用实在有限。

遗憾的是时间序列的分析和处理在车联网领域几乎没有成熟的工具和方法，即使Matlab、R、WolframAlpha这类专业的数学工具，提供的算法库也很少。这一方面是因为物联网行业积累的数据不够丰富，应用前景不清晰，更重要的是时间序列数据的处理涉及各专业领域的技术和方法，处理难度很大。以汽车速度这一数据为例，机械工业时代大家关心的单位是小时，电子和信息工业时代单位是s，物联网行业全过程、大样本场景下讨论的则是ms。

时间： 2024-08-29 05:21:31

vehicle time series data analysis

vehicle time series data analysis的相关文章

Python For Data Analysis -- Pandas

《Python For Data Analysis》学习笔记-1

《python for data analysis》第十章，时间序列

Data analysis system

Spark的Python和Scala shell介绍（翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis）

Python For Data Analysis -- NumPy

3.1.7. Cross validation of time series data

About Data Analysis

Python For Data Analysis -- IPython