python 读取文本

将文本转换到NumPy 数组中,做机器学习或其他任何任务,文本处理的技能必不可少。python 实现实现了很精简强大的文本处理功能:

假设 文件 traindata.csv 中有数据 1000行,3列特征,第四列(最后一列)为类标签

1. 基本方法:

def file2matrix():
    dataMat = []
    labelMat = []
    fr = open(‘./traindata.csv‘,‘rb‘)     fr.readline()
    for line in fr.readlines():  #读取每一行    curLine = line.strip().split(‘\t‘)    lineArr = []    for i in range(3):      lineArr.append(float(curLine[i])) # 读取每个属性      dataMat.append(lineArr)       labelMat.append(float(curLine[3]))  return dataMat,labelMat
    

2. 使用csv模块

import csv

def file2Matrix():
     fr = open(‘./traindata‘,‘rb‘)
     lines = csv.reader(fr)
   lines.next()  // 忽略第一行
     for line in lines:
          ....

3. 使用pandas 模块

import pandas as pd

def file2Matrix():
    fr = open(‘./traindata.csv‘,‘rb‘)
    df = pd.read_csv(fr,header=0)
    dataMat = df[[‘feature1‘,‘feature2‘,‘feature3‘]]
    labelMat = df[‘label‘]
    return dataMat,labelMat

很明显,如果熟练掌纹pandas 将会很简单,so easy.

纸上得来终觉浅,绝知此事要躬行....

just do it!

时间: 2024-11-06 19:08:57

python 读取文本的相关文章

python读取文本、配对、插入数据脚本

#-*- coding:UTF-8 -*- #-*- author:Zahoor Wang -*- import codecs, os, sys, platform, string def env(): return platform.system() def read_file(uri, charset = "utf-8"): f = codecs.open(uri, "r", charset) s = f.read() f.close() return s de

Python读取文本,输出指定中文(字符串)

因业务需求,需要提取文本中带有检查字样的每一行. 样本如下: 1 投入10kVB.C母分段820闭锁备自投压板 2 退出10kVB.C母分段820备投跳803压板 3 退出10kVB.C母分段820备投合820压板 4 检查2.3号主变压器分头位置一致 5 合上820断路器 6 检查820断路器确带负荷 7 检查2号.3号主变压器负荷分配正常 8 拉开802断路器 9 检查802断路器在分闸位置 10 检查3号主变压器不过负荷 我们要用的包:re(python 强大的正则包),codecs(专门

python读取文本数据写入到数据库及查询优化

文本数据格式 ip2int函数用于IP地址转化为整数 int2ip函数用于整数转化为IP地址 insert_row函数用于插入数据库记录 from __future__ import print_function import torndb def get_mysql_conn():     return torndb.Connection(         host=mysql["host"] + ":" + mysql["port"],   

python 逐行读取文本

f = open("foo.txt") # 返回一个文件对象line = f.readline() # 调用文件的 readline()方法while line: print line, # 后面跟 ',' 将忽略换行符 # print(line, end = '') # 在 Python 3中使用 line = f.readline() f.close() 也可以写成以下更简洁的形式 for line in open("foo.txt"): print line,

Python将文本内容读取分词并绘制词云图

功能:Python将文本内容读取分词并绘制词云图 import matplotlib import matplotlib.pyplot as plt #数据可视化 import jieba #词语切割 import wordcloud #分词 from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #词云,颜色生成器,停止 import numpy as np #科学计算 from PIL import Image #处理图片

Python实现随机读取文本N行数据

工作中需要判断某个文本中的URL是否能正常访问,并且随机获取其中N行能正常访问的URL数据,我的思路是:读取文本每一行数据,用urlopen访问,将返回状态码为200的URL保存到一个列表,获得列表长度,使用random产生一个随机值作为列表下标,获取该行数据.具体实现如下: 1 import urllib2,random 2 from sets import Set 3 4 def get_responses(url): 5 global good_list 6 global bad_list

python 读取文本文件

Python的文本处理是经常碰到的一个问题,Python的文本文件的内容读取中,有三类方法:read().readline().readlines(),这三种方法各有利弊,下面逐一介绍其使用方法和利弊. read(): read()是最简单的一种方法,一次性读取文件的所有内容放在一个大字符串中,即存在内存中 file_object = open('test.txt') //不要把open放在try中,以防止打开失败,那么就不用关闭了 try: file_context = file_object

python读取文件小结

python读取文件小结 你想通过python从文件中读取文本或数据. 一.最方便的方法是一次性读取文件中的所有内容并放置到一个大字符串中: all_the_text = open('thefile.txt').read( )     # 文本文件中的所有文本 all_the_data = open('abinfile','rb').read( )    # 二进制文件中的所有数据 为了安全起见,最好还是给打开的文件对象指定一个名字,这样在完成操作之后可以迅速关闭文件,防止一些无用的文件对象占用

python 读取图片的尺寸、分辨率

#需要安装PIL模块 #encoding=gbk#-------------------------------------------------------------------------------# Name: picRead# Purpose:## Author: wangchao## Created: 27/06/2014# Copyright: (c) wangchao 2014# Licence: <your licence>#-----------------------