python pandas模块,nba数据处理(1)

pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
  对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。
  DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标。

在指定的录目下打开ipython notebook

1,pandas 打开并读取csv文件
import pandas as pd

df=pd.read_csv(‘d:/fff.csv‘)

2.pandas打开excel文件

import pandas  as pd

df=pd.read_excel(‘d:/aaa.xlsx‘)

3,pandas 保存数据到csv文件

df.to_csv(‘d:/aaa.csv‘, encoding=‘utf-8‘,index=‘False‘)

若没有该文件,则自动生成

在当前录目下保存nba数据为csv

头部信息的处理

import pandas as pd
dataset=pd.read_csv(‘nba.csv‘,parse_dates=["Date"],skiprows=[1,])   寻找表头

dataset.columns=["","Date","Score Type","Visitor Team","VisitorPts","Home Team","HomePts","OT?","Notes"]替换表头

pandas读取处理:

  • skiprows:跳过?定的?数
  • nrows:仅读取?定的?数
  • skipfooter:尾部有固定的?数永不读取
  • skip_blank_lines:空?跳过
 
时间: 2024-08-08 13:02:45

python pandas模块,nba数据处理(1)的相关文章

Python 数据处理扩展包: numpy 和 pandas 模块介绍

一.numpy模块 NumPy(Numeric Python)模块是Python的一种开源的数值计算扩展.这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)).据说NumPy将Python相当于变成一种免费的更强大的MatLab系统. NumPy模块提供了许多高级的数值编程工具,如:矩阵数据类型.矢量处理,以及精密的运算库等. 1).一个强大的N维数组对象Array: 2).比较成熟

Python中pandas模块快速入门

我这里简单介绍一下Python中,pandas模块定义的两种常用的数据结构,Series和DaraFrame.Series和Python中的Dict类似,但是是结构化的,而DataFrame和数据库中的表类似. 1.pandas基本数据结构-pandas.Series&pandas.DataFrame 第二种定义DataFrame的方法不能手动设置index,只能自动生成序列.date_range('20180201',periods=8)定义时间序列,可以用freq来设置频率:s=pd.dat

Python数据分析 Pandas模块 基础数据结构与简介(一)

pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二维矩阵:DataFrame 三维面板数据:Panel 背景:为金融产品数据分析创建的,对时间序列支持非常好! 数据结构 导入pandas模块 import pandas as pd 读取csv文件,数据类型就是二维矩阵 DataFrame df = pd.read_csv('路径')type(df)

python threading模块使用 以及python多线程操作的实践(使用Queue队列模块)

今天花了近乎一天的时间研究python关于多线程的问题,查看了大量源码 自己也实践了一个生产消费者模型,所以把一天的收获总结一下. 由于GIL(Global Interpreter Lock)锁的关系,纯的python代码处理一般逻辑的确无法活动性能上的极大提升,但是在处理需要等待外部资源返回或多用户的应用程序中,多线程仍然可以作为一个比较好的工具来进行使用. python提供了两个模块thread和threading 来支持python的多线程操作.通俗的讲一般现在我们只使用threading

浅谈 Python 的模块导入

浅谈 Python 的模块导入 本文不讨论 Python 的导入机制(底层实现细节),仅讨论模块与包,以及导入语句相关的概念.通常,导入模块都是使用如下语句: import ... import ... as ... from ... import ... from ... import ... as ... 一般情况下,使用以上语句导入模块已经够用的.但是在一些特殊场景中,可能还需要其他的导入方式.例如 Python 还提供了 __import__ 内建函数和 importlib 模块来实现动

python常用模块(二)

目录 pandas模块 Series DataFrame DataFrame属性 处理缺失值 合并数据 取值 matplotlib模块 条形图 直方图 折线图 散点图 re模块 基础的re使用 贪婪模式 非贪婪模式 re模块高级 compile match和search 分组 re.split() sub和subn pandas模块 pandas基于Numpy,可以看成是处理文本或者表格数据.pandas中有两个主要的数据结构,其中Series数据结构类似于Numpy中的一维数组,DataFra

numpy 模块和 pandas 模块

一.numpy模块 1.1 numpy 简介 numpy是python的一种开源的数值计算扩展库,这种库可用来存储和处理大型numpy数组. numpy库有两个作用: ? 1.区别于list列表,提供了数组操作.数组运算.以及统计分布和简单的数学模型 ? 2.计算速度快,甚至要优于python内置的简单运算,使得其成为pandas.sklearn等模块的依赖包.高级的框架如TensorFlow.PyTorch等,其数组操作也和numpy非常相似. 1.2 创建numpy数组 numpy数组即nu

模块讲解---numpymo模块,matplotlib模块,pandas模块

目录 numpy模块 matplotlib模块 pandas模块 numpy模块 numpy模块:用来做数据分析,对numpy数组(既有行又有列)--矩阵进行科学运算 在使用的时候,使用方法与其他的模块有一点不一样 import numpy as np 具体的使用方法 1.创建numpy数组--->可变 # 一组数据相乘 import numpy as np arr1 = np.array([1,2,3]) arr2 = np.array([4,5,6]) print(arr1*arr2) #

Python常用模块及正则表达式知识点,你需要了解的全在这了

近年来随着人工智能的火热,也让Python语言逐渐被更多人所接受,一个原因是Python语法比较简洁,几十行代码就能实现一个超级复杂的功能(比如今年过年时,有同学用Python生成对联):另外一个原因是Python强大的类库支撑,比如:NASA(美国国家航空航天局)的很多数据处理库都是用Python实现的,在2018年,NASA甚至还拍了个宣传片,用sublime Text+Python实现了登月计划,是不是很Niubility. 在平时工作中的很多场景你都可能会用到Python,比如:写单元测