Python进行文本处理

对于一个文本字符串,可以使用Python的string.split()方法将其切割。下面看看实际运行效果。

mySent = ‘This book is the best book on python!‘
print mySent.split()

输出:

[‘This‘, ‘book‘, ‘is‘, ‘the‘, ‘best‘, ‘book‘, ‘on‘, ‘python!‘]

可以看到,切分的效果不错,但是标点符号也被当成了词,可以使用正则表达式来处理,其中分隔符是除单词、数字外的任意字符串。

import re
reg = re.compile(‘\\W*‘)
mySent = ‘This book is the best book on python!‘
listof = reg.split(mySent)
print listof

输出为:

[‘This‘, ‘book‘, ‘is‘, ‘the‘, ‘best‘, ‘book‘, ‘on‘, ‘python‘, ‘‘]

现在得到了一系列词组成的词表,但是里面的空字符串需要去掉。

可以计算每个字符串的长度,只返回大于0的字符串。

import re
reg = re.compile(‘\\W*‘)
mySent = ‘This book is the best book on python!‘
listof = reg.split(mySent)
new_list = [tok for tok in listof if len(tok)>0]
print new_list

输出为:

[‘This‘, ‘book‘, ‘is‘, ‘the‘, ‘best‘, ‘book‘, ‘on‘, ‘python‘]

最后,发现句子中的第一个字母是大写的。我们需要同一形式,把大写转化为小写。Python内嵌的方法,可以将字符串全部转化为小写(.lower())或大写(.upper())

import re
reg = re.compile(‘\\W*‘)
mySent = ‘This book is the best book on python!‘
listof = reg.split(mySent)
new_list = [tok.lower() for tok in listof if len(tok)>0]
print new_list

输出为:

[‘this‘, ‘book‘, ‘is‘, ‘the‘, ‘best‘, ‘book‘, ‘on‘, ‘python‘]

下面来看一封完整的电子邮件:

内容

Hi Peter,

With Jose out of town, do you want tomeet once in a while to keep thingsgoing and do some interesting stuff?

Let me knowEugene
import re
reg = re.compile(‘\\W*‘)
email = open(‘email.txt‘).read()
list = reg.split(email)
new_txt = [tok.lower() for tok in list if len(tok)>0]
print new_txt

输出:

[‘hi‘, ‘peter‘, ‘with‘, ‘jose‘, ‘out‘, ‘of‘, ‘town‘, ‘do‘, ‘you‘, ‘want‘, ‘to‘, ‘meet‘, ‘once‘, ‘in‘, ‘a‘, ‘while‘, ‘to‘, ‘keep‘, ‘things‘, ‘going‘, ‘and‘, ‘do‘, ‘some‘, ‘interesting‘, ‘stuff‘, ‘let‘, ‘me‘, ‘know‘, ‘eugene‘]
时间: 2024-11-05 21:25:38

Python进行文本处理的相关文章

【Python】Python在文本分析中将中文和非中文进行分割

1.问题描述 进行文本分析的时候需要将中文和非中文进行分开处理,下面通过Python将文本中的中文部分提取出来进行需要的处理. 2.问题解决 开发环境:Linux 程序代码如下:split.py #!/usr/bin/python #-*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding("utf8") import re #导入正则表达式模块:re模块 def translate(inputFile, ou

python读取文本、配对、插入数据脚本

#-*- coding:UTF-8 -*- #-*- author:Zahoor Wang -*- import codecs, os, sys, platform, string def env(): return platform.system() def read_file(uri, charset = "utf-8"): f = codecs.open(uri, "r", charset) s = f.read() f.close() return s de

用python处理文本,本地文件系统以及使用数据库的知识基础

主要是想通过python之流的脚本语言来进行文件系统的遍历,处理文本以及使用简易数据库的操作. 本文基于陈皓的:<程序员技术练级攻略> 一.Python csv 对于电子表格和数据库导出文件,比较常见的文件格式是.csv,所以python中的csv模块也是一个比较重要的模块.下面介绍csv常用的方法. 1.csv.reader(csvfile, dialect='excel', **fmtparams) 该函数返回一个reader对象,能够以行遍历的形式遍历行里面的数据. csvfile——需

python将文本转化成gif图片阅读

这是python吧的一个帖子(http://tieba.baidu.com/p/3030737423),具体的就是,导入txt文档,然后就会生成像一个gif的界面,文字不断的更换,用这种方法看文档,如图: 代码: # -*- coding: utf-8 -* #------------------------------------- import pygame from pygame.locals import * from sys import exit import time import

教你利用python处理文本

我是个C/C++ Coder,并不是专业写python的,python lua其实属于一类语言,只不要python的库更多,强大之处并不完全是python语言特性,而且扩展库比较多,请允许我黑一下python,python始终是个脚本语言,优点缺点很明显,作为一个非轻量级脚本语言(与lua较之),python适合干很多系统相关的事情.这里就分析一下如何利用python处理文本,查找,提取. 假定我们要完成这样一个功能:搜索出指定目录内的所有文本,取出指定位置内容,并打印行数和所在的行内容. 遍历

#Python绘制 文本进度条,带刷新、时间暂缓的

#Python绘制 文本进度条,带刷新.时间暂缓的 #文本进度条 import time as T st=T.perf_counter() print('-'*6,'执行开始','-'*6) maxx=11 #要大1 for i in range(maxx): s1='*'*i s2='->' s3='.'*(maxx-i-1) T.sleep(0.5) #假装有延时 dur=T.perf_counter()-st print("\r%3d%%[%s%s%s] %.2fs"%(i

python将文本转换成语音的代码

将写代码过程中经常用的一些代码片段备份一下,如下代码段是关于python将文本转换成语音的代码,应该是对小伙伴们有一些好处. # Text To Speech using SAPI (Windows) and Python module pyTTS by Peter Parente# download installer file pyTTS-3.0.win32-py2.4.exe # and pywin32-204.win32-py2.4.exe at this date the latest

Python Tkinter 文本框(Entry)

Python Tkinter 文本框用来让用户输入一行文本字符串. 你如果需要输入多行文本,可以使用 Text 组件. 你如果需要显示一行或多行文本且不允许用户修改,你可以使用 Label 组件. 语法 语法格式如下: w = Entry( master, option, ... ) master: 按钮的父容器. options: 可选项,即该按钮的可设置的属性.这些选项可以用键 = 值的形式设置,并以逗号分隔. 方法 下表为文本框组件常用的方法: 实例 实例中点击按钮会显示一个信息: 原文地

python根据文本生成词云图

python根据文本生成词云图 效果 代码 from wordcloud import WordCloud import codecs import jieba #import jieba.analyse as analyse from scipy.misc import imread import os from os import path import matplotlib.pyplot as plt from PIL import Image, ImageDraw, ImageFont

Python将文本内容读取分词并绘制词云图

功能:Python将文本内容读取分词并绘制词云图 import matplotlib import matplotlib.pyplot as plt #数据可视化 import jieba #词语切割 import wordcloud #分词 from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #词云,颜色生成器,停止 import numpy as np #科学计算 from PIL import Image #处理图片