Pandas读取文本

Pandas在处理千万行级别的数据中有非常高的实用价值,通过将文本数据读取加载到内存中,在利用Pandas进行数据处理运算,效率非常高。(Excel表适合处理几十万行级别的数据,Pandas则适用于处理千万级别的数据)。

一般情况下千万级别的数据动辄在几个GB以上,因此建议电脑内存在16GB以上为佳。python在处理超过内存能力的大数据时,虽说程序不会中断,但对运行效率影响很大。

在Pandas数据读取和处理中一下代码为常用代码:

import pandas as pd  ‘必选,加载pandas
import numpy as np  ‘通常必选,如产生随机数
import gc  ‘可选,用于内存管理
import time  ‘可选,如用于计时

reader = pd.read_table(‘文件名.txt‘,header=None,sep=‘|‘,index_col=0)  ‘加载文件到内存,加载的方式可以通过参数进行灵活控制
reader.value_counts([列ID号]).to_csv(‘文件名.csv‘)  ‘类似于excel中的countif,运行效率比excel高出非常多!
reader.([列ID号]).sum()  ‘对不同的列进行统计分析

reader.drop_duplicates([列ID号]).to_csv(‘文件名.csv‘)  ‘将除重后的数据存入单独文件里

reader.sort([列ID号], ascending=False,其他条件...)  ‘按某列值对数据进行排序

reader.loc(reader[列ID号] ==/!=/> ‘条件值‘, 其他条件...)

此外,除简单统计外,Pandas还提供如下统计计算:

count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max  最小值和最大值
argmin , argmax  最小值和最大值的索引位置(整数)
idxmin , idxmax  最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var  方差
std  标准差
skew  样本值的偏度(三阶矩)
kurt  样本值的峰度(四阶矩)
cumsum  样本值的累计和
cummin , cummax  样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff  计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化
时间: 2024-10-20 18:53:39

Pandas读取文本的相关文章

python 逐行读取文本

f = open("foo.txt") # 返回一个文件对象line = f.readline() # 调用文件的 readline()方法while line: print line, # 后面跟 ',' 将忽略换行符 # print(line, end = '') # 在 Python 3中使用 line = f.readline() f.close() 也可以写成以下更简洁的形式 for line in open("foo.txt"): print line,

容易使用的读取文本播放器 Text to Speech Maker 2.5

FilmConvert Stand Alone 1.216 MacOSXAutodesk.Smoke.v2015.SP1.MacOSX 1DVDAutodesk Smoke 2015提供更快的效能和更平易近人的价格专 为以Mac计算机作业的小型工作室设计,Smoke 2015专业影音特效和剪辑工具现在具备了 3D追踪.新的Timeline FX工作流程.针对搭载OS X Mavericks操作系统的新版Mac Pro新增硬件支持和系统运作的最佳化,并与Final Cut Pro X提供更佳的互通

qt读取文本

直接 代码: 1 // lyy : 2016/8/26 16:40:11 说明:读取文本 2 bool FileOpeartion:: GetTheTextContent (const QString strPath, QStringList &strContent) 3 { 4 QFile file (strPath); 5 6 if (file.open (QIODevice::ReadOnly | QIODevice::Text)) 7 { 8 QTextStream in (&fi

C#读取文本播放相应语音【转】

第一种方案: 利用微软text to speech引擎(TTS),读取文本 (1)添加Microsoft Speech Object Library的项目引用 (2)引入using SpeechLib名称控件 (3)读取文本 SpeechVoiceSpeakFlags flag = SpeechVoiceSpeakFlags.SVSFlagsAsync;         SpVoice voice = new SpVoice(); //默认使用“控制面板”—>“声音”—>“录制”选项卡的“配置

自己动手写简单的web应用服务器(3)—服务器从磁盘文件中读取文本,发送给客户端

服务器: 1 package serverAndClient; 2 3 import java.io.BufferedReader; 4 import java.io.File; 5 import java.io.FileInputStream; 6 import java.io.IOException; 7 import java.io.InputStream; 8 import java.io.InputStreamReader; 9 import java.io.OutputStream;

python读取文本、配对、插入数据脚本

#-*- coding:UTF-8 -*- #-*- author:Zahoor Wang -*- import codecs, os, sys, platform, string def env(): return platform.system() def read_file(uri, charset = "utf-8"): f = codecs.open(uri, "r", charset) s = f.read() f.close() return s de

Python读取文本,输出指定中文(字符串)

因业务需求,需要提取文本中带有检查字样的每一行. 样本如下: 1 投入10kVB.C母分段820闭锁备自投压板 2 退出10kVB.C母分段820备投跳803压板 3 退出10kVB.C母分段820备投合820压板 4 检查2.3号主变压器分头位置一致 5 合上820断路器 6 检查820断路器确带负荷 7 检查2号.3号主变压器负荷分配正常 8 拉开802断路器 9 检查802断路器在分闸位置 10 检查3号主变压器不过负荷 我们要用的包:re(python 强大的正则包),codecs(专门

Python实现随机读取文本N行数据

工作中需要判断某个文本中的URL是否能正常访问,并且随机获取其中N行能正常访问的URL数据,我的思路是:读取文本每一行数据,用urlopen访问,将返回状态码为200的URL保存到一个列表,获得列表长度,使用random产生一个随机值作为列表下标,获取该行数据.具体实现如下: 1 import urllib2,random 2 from sets import Set 3 4 def get_responses(url): 5 global good_list 6 global bad_list

机器学习之数据预处理,Pandas读取excel数据

Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结合xlrd可以达到修改excel文件目的.openpyxl可以对excel文件同时进行读写操作. 而说到数据预处理,pandas就体现除了它的强大之处,并且它还支持可读写多种文档格式,其中就包括对excel的读写.本文重点就是介绍pandas对excel数据集的预处理. 机器学习常用的模型对数据输入