第3章 探索性数据分析(单因子&对比)与可视化

1、理论铺垫

 DataframeSeries均适用

  ~集中趋势:均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode()

  ~离中趋势:标准差std()、方差var()

   数据分布:偏态skew()与峰态kurt()、正态分布与三大分布正偏态(mean>median)

  import scipy.stats as ss

     正态分布:ss.norm 、卡方分布:ss.chi2 、t分布:ss.chi2、f分布:ss.chi2
  偏态系数:数据平均值偏离状态的衡量
  峰态系数:数据分布集中强度的衡量

~ 抽样定理:抽样误差、抽样精度

   data.sample(10)  #抽10个

data.sample(frac = 0.001)  #抽样百分比为0.001


2、数据分类


·         定类(类别):根据事物离散、无差别属性进行的分类,如:名族


·         定序(顺序):可以界定数据的大小,但不能测定差值:如:收入的低、中、高


·         定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,如:温度


·         定比(比率):可以界定数据大小,可测定差值,有绝对零点,如:身高、体重

3、单属性分析

3.1异常值分析

  离散异常值,连续异常值,常识异常值

 

3.2对比分析

  绝对数与相对数(比什么),时间、空间、经验与计划(如何比)

    绝对数比较:绝对的数字的比较,例如:收入

    相对数比较:将几个有联系的指标进联合,构成一个新的数

3.3结构分析

  各组成部分的分布与规律

3.4分布分析

  数据分布频率的显式分析

其中seaborn是matplotlib的封装

Seaborn官网: http://seaborn.pydata.org/api.html

(1)柱状图:以纵轴表示数值大小

sns.set_style(style="darkgrid")#style="whitegrid"
sns.set_context(context="poster",font_scale=0.5)
sns.set_palette(sns.color_palette(‘Reds‘))

plt.title(‘SALARY‘)
plt.xlabel(‘salary‘)
plt.ylabel(‘number‘)
#设置横轴的显示
plt.xticks(0.5+np.arange(len(data[‘salary‘].value_counts())),data[‘salary‘].value_counts().index)
#设置横轴显示的最小值是0,最大是4;纵轴显示的最小值是0,最大值是10000
plt.axis([0,4,0,10000])
plt.bar(0.5+np.arange(len(data[‘salary‘].value_counts())),data[‘salary‘].value_counts(),width=0.5)
for x,y in zip(0.5+np.arange(len(data[‘salary‘].value_counts())),data[‘salary‘].value_counts()):
    plt.text(x,y,y,ha="center",va="bottom")#对每一类进行标注,标注的值为y,水平位置是center,垂直位置是bottom
plt.show()

# sns.countplot(x="salary",data=data)
sns.countplot(x="salary",hue= "department",data=data)#多层绘制,例如以部门为分割
plt.show()

原文地址:https://www.cnblogs.com/Cheryol/p/11420763.html

时间: 2024-08-01 08:27:37

第3章 探索性数据分析(单因子&对比)与可视化的相关文章

探索性数据分析EDA综述

目录 1. 数据探索的步骤和准备 2. 缺失值处理 为什么需要处理缺失值 Why data has missing values? 缺失值处理的技术 3. 异常值检测和处理 What is an outlier? What are the types of outliers? What are the causes of outliers? What is the impact of outliers on dataset? How to detect outlier? How to remov

锋利的jQuery第5章 jQuery对表单、表格的操作及更过应用

1,button和checkbox的例子: form表单 <form action=""> 你爱的远动有?<br /> <input type="checkbox" name="items" value="足球" />足球 <input type="checkbox" name="items" value="蓝球" />

2017.2.28 activiti实战--第六章--任务表单(一)动态表单(待)

学习资料:<Activiti实战> 第六章 任务表单(一)动态表单 内容概览:本章要完成一个OA(协同办公系统)的请假流程的设计,从实用的角度,讲解如何将activiti与业务紧密相连. 第四章中讲解了两种表单:动态表单和外置表单的区别.这里将使用不同的表单来完成相同的功能. 1 动态表单:<activiti:formProperty> 2 外置表单:<activiti:formKey>

Python 探索性数据分析(Exploratory Data Analysis,EDA)

此脚本读取的是 SQL Server ,只需给定表名或视图名称,如果有数据,将输出每个字段符合要求的每张数据分布图. # -*- coding: UTF-8 -*- # python 3.5.0 # 探索性数据分析(Exploratory Data Analysis,EDA) __author__ = 'HZC' import math import sqlalchemy import numpy as np import pandas as pd import matplotlib.pyplo

探索性数据分析(Exploratory Data Analysis,EDA)

探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等. 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别: 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析.但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意. 探索性数据分析方法注重数据的真实分布,

第一章、数据分析介绍

目录 一.数据分析介绍 1.数据分析是什么 2.数据分析能干什么 3.为什么利用Python进行数据分析 4.数据分析过程概述 5.常用库简介 一.数据分析介绍 数据分析是什么? 数据分析能干什么? 为什么利用Python进行数据分析? 数据分析过程概述 常用库简介 1.数据分析是什么 在我们如今这个时代,相信大多数人都能明白数据的重要性,数据就是信息,而数据分析就是可以让我们发挥这些信息功能的重要手段. 2.数据分析能干什么 对于数据分析能干什么其实我们可以简单的举几个例子: 1.淘宝可以观察

方差分析的MATLAB实现(单因子)

单因子方差分析是比较俩组或多组数据的均值,它返回原假设--均值相等的概率,在matlab中我们可以用函数 anova1进行单因子方差分析. 函数anova1 格式: p=anova1(X) %X的各列为彼此独立的样本观察值,其元素个数相同,p为各列均值相等的概率值,若p值 接近于0,则原假设受到质疑,说明至少有一列均值与其余列均值有明显的不同 p=anova1(X,group) %X和group为向量且group要与X对应: [p,table]=anova1(X,group,'displayop

动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题

D3.js入门指南 什么是D3?D3是指数据驱动文档(Data-Driven Documents),根据D3的官方定义: D3.js是一个JavaScript库,它可以通过数据来操作文档.D3可以通过使用HTML.SVG和CSS把数据鲜活形象地展现出来.D3严格遵循Web标准,因而可以让你的程序轻松兼容现代主流浏览器并避免对特定框架的依赖.同时,它提供了强大的可视化组件,可以让使用者以数据驱动的方式去操作DOM. D3是这样一个特殊的JavaScript库,它利用现有的Web标准,通过更简单的(

Python数据分析、数据采集、数据可视化、图像数据处理分析视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv