2.13 描述性统计(平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差))

统计分析包括描述统计和推断统计两个部分。

对已有的数据整理,计算数据指标,平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差)是最常用的技术手段,也是最容易的。

# hanbb
# come on!!!
import tushare as ts
import matplotlib.pyplot as plt

# 股票数据获取
data_zglt = ts.get_hist_data(‘600050‘,start=‘2015-06-23‘,end=‘2017-11-16‘)
data_pfyh = ts.get_hist_data(‘600000‘,start=‘2015-06-23‘,end=‘2017-11-16‘)

# 收益率计算
data_zglt[‘returns‘] = (data_zglt[‘close‘]-data_zglt[‘close‘].shift(1))/data_zglt[‘close‘].shift(1)
data_pfyh[‘returns‘] = (data_pfyh[‘close‘]-data_pfyh[‘close‘].shift(1))/data_pfyh[‘close‘].shift(1)

# 求平均值
print(data_zglt[‘returns‘].mean(),data_pfyh[‘returns‘].mean())
# 求中位数
print(data_zglt["returns"].median(),data_pfyh["returns"].median())
# 求众数
print(data_zglt["returns"].mode(),data_pfyh["returns"].mode())

# 四分位数
print(data_zglt[‘returns‘].quantile(i) for i in [0.25,0.75])
print(data_pfyh[‘returns‘].quantile(i) for i in [0.25,0.75])

# 数据的离散度 稳定性
# 极差
print(data_zglt[‘returns‘].max()-data_zglt[‘returns‘].min())
print(data_pfyh[‘returns‘].max()-data_pfyh[‘returns‘].min())

# 平均绝对偏差(MAD:mean absolute devation)
# define:数据和均值差值的 之和 的平均数(除以N)
print(data_zglt["returns"].mad(),data_pfyh["returns"].mad())

# 方差(variance)和标准差(standard deviation)
# var define:数据和均值差值的 平方之和 的平均数(除以N-1)
print(data_zglt["returns"].var(),data_pfyh["returns"].var())
print(data_zglt["returns"].std(),data_pfyh["returns"].std())

# 描述性数据
print(data_zglt["returns"].describe(),data_pfyh["returns"].describe())
时间: 2024-10-09 08:53:33

2.13 描述性统计(平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差))的相关文章

数据的描述性统计

数据的集中趋势 众数 众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中. 众数是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数. 一组数据中的众数不止一个,如数据2.3.-1.2.1.3中,2.3都出现了两次,它们都是这组数据中的众数. 一般来说,一组数据中,出现次数最多的数就叫这组数据的众数. 例如: 1,2,3,3,4的众数是3. 但是,如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数. 1,2,2,3,

作业一 统计软件简介与数据操作

spss软件 所属类别 : 软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

基于R语言的数据分析和挖掘方法总结——描述性统计

1.1 方法简介 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和 集中趋势:均值.中位数.众数 离散趋势:方差(标准差).变异系数.全距(最小值.最大值).内四分位距(25%分位数.75%分位数) 分布描述:峰度系数.偏度系数 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算. 1.2 详细介绍 1.2.1 样本数和总和 1. R语言涉及的方法:length(x) 1.2.2 均值(Mean) 1.

使用NumPy、SciPy和Matplotlib进行描述性统计

目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析 3.2.1 定性分析(柱状图.饼形图) 3.2.2 定量分析(直方图.累积曲线) 3.3 关系分析(散点图) 3.4 探索分析(箱形图) 3.5 回顾4 总结5 参

使用Python进行描述性统计【解决了实习初期的燃眉之急】

目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析 3.2.1 定性分析(柱状图.饼形图) 3.2.2 定量分析(直方图.累积曲线) 3.3 关系分析(散点图) 3.4 探索分析(箱形图) 3.5 回顾4 总结5 参

平均数 中位数 众数的实际意义

平均数:反映了一组数据的平均大小,常用来一代表数据的总体 "平均水平". 中位数:像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的"一般水平". 众数:反映了出现次数最多的数据,用来代表一组数据的"多数水平". 平均数:与每一个数据都有关,其中任何数据的变动都会相应引起平均数的变动.主要缺点是易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低. 中位数:与数据的排列位置

郭佳庆(201551296)第一次作业:统计软件简介与数据操作

一.SPSS 1.基本信息 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学软件包"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

Python描述性统计

目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析 3.2.1 定性分析(柱状图.饼形图) 3.2.2 定量分析(直方图.累积曲线) 3.3 关系分析(散点图) 3.4 探索分析(箱形图) 3.5 回顾4 总结5 参

Pandas | 06 描述性统计

有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作. 其中大多数是sum(),mean()等聚合函数. 一般来说,这些方法采用轴参数,就像ndarray.{sum,std,...},但轴可以通过名称或整数来指定: 数据帧(DataFrame) - “index”(axis=0,默认),columns(axis=1) 下面创建一个数据帧(DataFrame),并使用此对象进行演示本章中所有操作. import pandas as pd d = {'Name':pd.Series