python 读写txt文件并用jieba库进行中文分词

python用来批量处理一些数据的第一步吧。

对于我这样的的萌新。这是第一步。

#encoding=utf-8
file=‘test.txt‘
fn=open(file,"r")
print fn.read()
fn.close()

在控制台输出txt文档的内容,注意中文会在这里乱码。因为和脚本文件放在同一个地方,我就没写路径了。

还有一些别的操作。

这是文件open()函数的打开mode,在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操作。

http://www.jb51.net/article/87398.htm

可以具体看上面这个博主,自己做test熟悉。我只是做一个简单的操作test。



这里用jieba库,对文档做一个中文分词的操作,以便我们以后对这些txt文档进行更好的分类操作。

http://www.oschina.net/p/jieba/?fromerr=5wT4rbGx

具体可以看这个。jieba库的安装很方便,只要安装了pip,配置好了环境变量。

在命令行输入

pip install jieba

就可以自行安装了。

我试了他的几个函数,不知道为什么不能正常地在txt文档输出结果。= =只有一个可以正常使用。

#encoding=utf-8
import jieba
import jieba.posseg as pseg
import re
filename=‘result.txt‘
fileneedCut=‘test.txt‘
fn=open(fileneedCut,"r")
f=open(filename,"w+")
for line in fn.readlines():
    words=pseg.cut(line)
    for w in words:
        print >>f,str(w)
f.close()
fn.close()

把需要分词的txt放到脚本同一目录就好了。

后面是词的属性,左边是test文件,右边reault文件,和最流行的ICTCLAS的分词后属性貌似是一致的。= =。有点迷。

时间: 2024-12-13 08:05:42

python 读写txt文件并用jieba库进行中文分词的相关文章

python操作txt文件中数据教程[1]-使用python读写txt文件

python操作txt文件中数据教程[1]-使用python读写txt文件 觉得有用的话,欢迎一起讨论相互学习~Follow Me 原始txt文件 程序实现后结果 程序实现 filename = './test/test.txt' contents = [] DNA_sequence = [] # 打开文本并将所有内容存入contents中 with open(filename, 'r') as f: for line in f.readlines(): contents.append(line

Python读写Excel文件和正则表达式

Python 读写Excel文件 这里使用的是 xlwt 和 xlrd 这两个excel读写库. #_*_ coding:utf-8 _*_ #__author__='观海云不远' #__date__ = '2019-07-11' #读写excel import xlwt import xlrd import re workbook = xlrd.open_workbook('data.xlsx') sheet = workbook.sheet_by_index(0) data = [] for

Python读取txt文件

Python读取txt文件,有两种方式: (1)逐行读取 1 data=open("data.txt") 2 line=data.readline() 3 while line: 4 print line 5 line=data.readline() (2)一次全部读入内存 1 data=open("data.txt") 2 for line in data.readlines(): 3 print line

C#读写txt文件的两种方法介绍 v

C#读写txt文件的两种方法介绍 1.添加命名空间 System.IO; System.Text; 2.文件的读取 (1).使用FileStream类进行文件的读取,并将它转换成char数组,然后输出. byte[] byData = new byte[100]; char[] charData = new char[1000]; public void Read() { try { FileStream file = new FileStream("E:\\test.txt", Fi

javaIO流实现读写txt文件

javaIO流实现文件读写 文件写入: InputStreamReader BufferedReader文件读取:FileOutputStream package javatest.basic22; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStr

Java 读写TXT文件

public class GenCategoryAttrItemHandler { private final static String INPUT_FILE_PATH = "input/category_attr_item.txt"; private final static String OUTPUT_FLIE_PATH = "output/category_attr_itemList.txt"; /** * @param args * @throws IOE

UNICODE环境下读写txt文件操作

内容转载自http://blog.sina.com.cn/s/blog_5d2bad130100t0x9.html UNICODE环境下读写txt文件操作 (2011-07-26 17:40:05) 标签: 杂谈 分类: MFC程序设计 自己动手整理了一下,写了几个函数,用于UNICODE环境下对txt文本文件的操作,针对txt文本的ANSIC编码格式,进行了字符编码格式的转换.***********************************************************

WPF 读写TxT文件

文/嶽永鹏 WPF 中读取和写入TxT 是经常性的操作,本篇将从详细演示WPF如何读取和写入TxT文件. 首先,TxT文件希望逐行读取,并将每行读取到的数据作为一个数组的一个元素,因此需要引入List<string> 数据类型.且看代码: public List<string> OpenTxt(TextBox tbx) { List<string> txt = new List<string>(); OpenFileDialog openFile = new

用Python读写Excel文件 Contents

用Python读写Excel文件 四种python处理excel模块PK 我主要尝试了四种工具,在此并不会给出他们的排名,因为在不同的应用场景下,做出的选择会不同.   XlsxWriter xlrd&xlwt OpenPyXL Microsoft Excel API 介绍 可以创建Excel 2007或更高版本的XLSX文件 即python-excel,含xlrd.xlwt和xlutils三大模块,分别提供读.写和其他功能 可以读写Excel 2007 XLSX和XLSM文件 直接通过COM组