2.13 描述性统计（平均数，中位数，中数，数据的离散度（极差，平均绝对偏差，方差标准差））

统计分析包括描述统计和推断统计两个部分。

对已有的数据整理，计算数据指标，平均数，中位数，中数，数据的离散度（极差，平均绝对偏差，方差标准差）是最常用的技术手段，也是最容易的。

# hanbb
# come on!!!
import tushare as ts
import matplotlib.pyplot as plt

# 股票数据获取
data_zglt = ts.get_hist_data(‘600050‘,start=‘2015-06-23‘,end=‘2017-11-16‘)
data_pfyh = ts.get_hist_data(‘600000‘,start=‘2015-06-23‘,end=‘2017-11-16‘)

# 收益率计算
data_zglt[‘returns‘] = (data_zglt[‘close‘]-data_zglt[‘close‘].shift(1))/data_zglt[‘close‘].shift(1)
data_pfyh[‘returns‘] = (data_pfyh[‘close‘]-data_pfyh[‘close‘].shift(1))/data_pfyh[‘close‘].shift(1)

# 求平均值
print(data_zglt[‘returns‘].mean(),data_pfyh[‘returns‘].mean())
# 求中位数
print(data_zglt["returns"].median(),data_pfyh["returns"].median())
# 求众数
print(data_zglt["returns"].mode(),data_pfyh["returns"].mode())

# 四分位数
print(data_zglt[‘returns‘].quantile(i) for i in [0.25,0.75])
print(data_pfyh[‘returns‘].quantile(i) for i in [0.25,0.75])

# 数据的离散度 稳定性
# 极差
print(data_zglt[‘returns‘].max()-data_zglt[‘returns‘].min())
print(data_pfyh[‘returns‘].max()-data_pfyh[‘returns‘].min())

# 平均绝对偏差(MAD:mean absolute devation)
# define：数据和均值差值的 之和 的平均数（除以N）
print(data_zglt["returns"].mad(),data_pfyh["returns"].mad())

# 方差（variance）和标准差（standard deviation）
# var define：数据和均值差值的 平方之和 的平均数（除以N-1）
print(data_zglt["returns"].var(),data_pfyh["returns"].var())
print(data_zglt["returns"].std(),data_pfyh["returns"].std())

# 描述性数据
print(data_zglt["returns"].describe(),data_pfyh["returns"].describe())

时间： 2024-10-09 08:53:33

2.13 描述性统计（平均数，中位数，中数，数据的离散度（极差，平均绝对偏差，方差标准差））的相关文章

数据的描述性统计

数据的集中趋势众数众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中. 众数是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数. 一组数据中的众数不止一个,如数据2.3.-1.2.1.3中,2.3都出现了两次,它们都是这组数据中的众数. 一般来说,一组数据中,出现次数最多的数就叫这组数据的众数. 例如: 1,2,3,3,4的众数是3. 但是,如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数. 1,2,2,3,

作业一统计软件简介与数据操作

spss软件所属类别 : 软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

基于R语言的数据分析和挖掘方法总结——描述性统计

1.1 方法简介描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和集中趋势:均值.中位数.众数离散趋势:方差(标准差).变异系数.全距(最小值.最大值).内四分位距(25%分位数.75%分位数) 分布描述:峰度系数.偏度系数用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算. 1.2 详细介绍 1.2.1 样本数和总和 1. R语言涉及的方法:length(x) 1.2.2 均值(Mean) 1.

使用NumPy、SciPy和Matplotlib进行描述性统计

目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析 3.2.1 定性分析(柱状图.饼形图) 3.2.2 定量分析(直方图.累积曲线) 3.3 关系分析(散点图) 3.4 探索分析(箱形图) 3.5 回顾4 总结5 参

使用Python进行描述性统计【解决了实习初期的燃眉之急】

平均数中位数众数的实际意义

平均数:反映了一组数据的平均大小,常用来一代表数据的总体 "平均水平". 中位数:像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的"一般水平". 众数:反映了出现次数最多的数据,用来代表一组数据的"多数水平". 平均数:与每一个数据都有关,其中任何数据的变动都会相应引起平均数的变动.主要缺点是易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低. 中位数:与数据的排列位置

郭佳庆（201551296）第一次作业：统计软件简介与数据操作

一.SPSS 1.基本信息 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学软件包"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

Python描述性统计

Pandas | 06 描述性统计

有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作. 其中大多数是sum(),mean()等聚合函数. 一般来说,这些方法采用轴参数,就像ndarray.{sum,std,...},但轴可以通过名称或整数来指定: 数据帧(DataFrame) - “index”(axis=0,默认),columns(axis=1) 下面创建一个数据帧(DataFrame),并使用此对象进行演示本章中所有操作. import pandas as pd d = {'Name':pd.Series