pandas 学习 第1篇:pandas基础

pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,包含序列Series和数据框DataFrame两种最主要数据结构。

一,pandas最重要的两种数据类型

数据框(DataFrame)类似于二维的关系表,每列的数据类型是相同的,列与列的数据类型可以不同,也可以相同。数据框的结构是行和列,列有列名,行有行索引,行索引还可以设置标签。

序列(Series)可以认为是二维表中的一列,因此,可以把数据框的一列转换为序列。在pandas中,序列是具有单一类型的一维数组,表示多行一列的数据结构,由于一列中的元素必须是相同的,因此,序列中的数据具有相同的数据类型。和数据框一样,序列具有行索引和行标签属性,每行都有一个索引和行标签。

二,pandas的数据类型

用dtype属性来显示元素的数据类型,pandas主要有以下几种dtype:

  • object:表示字符串类型
  • int:表示整数类型
  • float:表示浮点数类型
  • datetime:表示时间类型
  • bool:表示布尔类型
  • category:分类

三,pandas的优势

  • 轻松处理数值型数据中的缺失数据(表示为Nan)
  • 可以从DataFrame和Series中插入和删除行数据和列数据,行和列都是可以变化的
  • 自动数据对齐
  • 可以对数据进行分组聚合操作
  • 强大的IO工具,用于从平面文件(CSV或格式化文件),Excel文件数据库加载数据
  • 时间序列处理,能够生成日期范围、进行移动窗口统计、移动窗口线性回归、日期转换等操作

参考文档:

pandas overview

原文地址:https://www.cnblogs.com/ljhdo/p/10701649.html

时间: 2024-10-09 20:56:28

pandas 学习 第1篇:pandas基础的相关文章

pandas 学习 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)

数据处理的目的是为了数据分析,下面分享常用的数据分析中会用到的函数. 一,分组和聚合 groupby用于对数据分组,分组之后可以直接调用聚合函数求值:agg()函数把分组和调用聚合函数集成到一个函数来实现: DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs) DataFrame

Pandas 学习 第2篇:pandas 的 Series

pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,最常用的数据结构是:序列Series和数据框DataFrame. 序列是具有单一类型的一维数组,表示多行一列的数据结构,由于一列中的元素必须是相同的,因此,序列中的数据具有相同的数据类型:行具有索引和行标签属性,每行都有一个索引和行标签.而DataFrame类似于二维的关系表,每列的数据类型是相同的. 一,pandas的数据类型 用dtype属性来显示元素的数据类型,pandas主要有以下几种dtype: ob

pandas 学习 第4篇:序列的处理(应用、聚合、转换、映射、分组、滚动、扩展、指数加权移动平均)

序列内置一些函数,用于循环对序列的元素执行操作. 一,应用函数 对序列的各个原始应用函数: Series.apply(self, func, convert_dtype=True, args=(), **kwds) 参数注释: func:应用的函数,可以是自定义的函数,或NumPy函数 convert_dtype:默认值是True,尝试把func应用的结果转换为更好的数据类型,如果设置为False,把结果转换为dtype=object. args:元组,在序列值之后,传递给func的位置参数(p

Java 学习第五篇--Java基础语法

1.Java关键字 定义:被Java语言赋予特定含义的单词      注意:goto和const 是Java的保留字 用于定义访问权限修饰符的关键字   private   protected   public 用于定义类,函数,变量修饰符的关键字 abstract   final   static   synchronized 用于定义类与类之间关系的关键字 extends   implements 用于定义建立实例及引用实例,判断实例的关键字 new   this   super   ins

6.1Python数据处理篇之pandas学习系列(一)认识pandas

目录 目录 (一)介绍与测试 2.作用: 3.导入的格式 4.小测试 (二)数据类型 1.两种重要的数据类型 2.pandas与numpy的比较 目录 (一)介绍与测试 号称处理数据与分析数据最好的第三方库 1.官网: 官网文档 http://pandas.pydata.org/pandas-docs/stable/install.html 2.作用: 提供了便于操作的高效的数据结构 提供了许多分析函数与分析工具 3.导入的格式 import pandas as pd 4.小测试 下面如是测试成

用scikit-learn和pandas学习线性回归

对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了. 1. 获取数据,定义问题 没有数据,当然没法研究机器学习啦.:) 这里我们用UCI大学公开的机器学习数据来跑线性回归. 数据的介绍在这: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant 数据的下载地址在这: http://archive.ics.uci.edu/ml/ma

pandas 学习笔记

读者只需浏览一下本文的目录结构,我相信就已经掌握了1到2成的 pandas 知识. 本文的目的是建立一个大概的知识结构 在数据挖掘python阅读源码时,断断续续查阅了些 pandas 资料,并在源码中大致感受到了 pandas 在数据清理方面的方便性. 先将自己查阅的资料结合实际应用中常用到的方式,以学习笔记的形式整理出来.不会涉及到 pandas 的所有方面,细节知识还需自行查阅官方文档. 数据结构 Series: 一维数组,与Numpy中的一维array类似.二者与Python基本的数据结

JAVA学习篇--JSTL基础

JSTL是什么 JSTL(JSP Standard TagLibrary,JSP标准标签库)是一个不断完善的开放源代码的JSP标签库. 为什么要用JSTL 我们JSP用于开发信息展现页非常方便;也可以嵌入java代码(scriptlet.表达式和声明)代码用来实现相关逻辑控制.看下面程序.但这样做会带来如下问题: jsp维护难度增加;出错提示不明确,不容易调试; 分工不明确;(即jsp开发者是美工,也是程序员); 最终增加程序的开发成本; <% if (session.getAttribute(

&lt;转&gt;pandas学习

1.Pandas 基本介绍 Numpy 和 Pandas 有什么不同? 如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的,没有数值标签,而 Pandas 就是字典形式.Pandas是基于Numpy构建的,让Numpy为中心的应用变得更加简单. pandas基本功能和使用方法有哪些? 要使用pandas,首先需要了解他主要两个数据结构:Series和DataFrame. Series的 创建: import pandas as pd import numpy as