3. 文本处理库

文本处理库主要是对字符串的操作使用,以及对文本内容方面进行处理。

3.1 string--公共的字符串操作

源码位置在:Lib/string.py

3.1.1 字符串常量

下面就是在字符串模块里定义的字符串常量:

string.ascii_letters

这个常量包含字母的大写和小写,不会随着本地化而改变。其实它就是ascii_loercase和ascii_uppercase的联合集合。

string.ascii_lowercase

这个常量是小写字母‘abcdefghijklmnopqrstuvwxyz‘。

string.ascii_uppercase

这个常量是大写字母‘ABCDEFGHIJKLMNOPQRSTUVWXYZ‘。

string.digits

这个常量是数字‘0123456789’。

string.hexdigits

这个常量是十六进制使用字符‘0123456789abcdefABCDEF’。

string.octdigits

这个常量是八进制使用字符‘01234567’。

string.punctuation

这个常量是ASCII表里的标点符号。

string.printable

这个常量是表示可打印的字符。包含数字、字母、标点符号和可以用作空格的字符。

string.whitespace

这个常量是表示可以用来作为空格分隔的字符。比如‘ \t\n\r\x0b\x0c‘。

蔡军生  QQ:9073204 深圳

时间: 2024-10-22 21:43:24

3. 文本处理库的相关文章

torchtext库(文本预处理库)

使用参考:https://zhuanlan.zhihu.com/p/31139113 例程: def get_data_iter(train_csv, test_csv, fix_length, batch_size, word2vec_dir): TEXT = data.Field(sequential=True, lower=True, fix_length=fix_length, batch_first=True) LABEL = data.Field(sequential=False,

使用TextRank算法为文本生成关键字和摘要

TextRank算法基于PageRank,用于为文本生成关键字和摘要.其论文是: Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004. 先从PageRank讲起. PageRank PageRank最开始用来计算网页的重要性.整个www可以看作一张有向图图,节点是网页.如果网页A存在到网页B的链接,那么有一条从网页A指向网页B的有向

转:python 的开源库

Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: 比较成熟的(广播)函数库: 用于整合C/C++和Fortran代码的工具包: 实用的线性代数.傅里叶变换和随机数生成函数. SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化.线性代数.积分.插值.特殊函数.快速傅里叶变换.信号处理和图像处理.常微分方程求解和其他科学与工程中常用的计算.其功能与软

Python 库大全

作者:Lingfeng Ai链接:http://www.zhihu.com/question/24590883/answer/92420471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. Awesome Python中文版来啦! 本文由 伯乐在线 - 艾凌风 翻译,Namco 校稿.未经许可,禁止转载!英文出处:github.com.欢迎加入翻译组. 原文链接:Python 资源大全 1200+收藏,600+赞,别只顾着自己私藏呀朋友们 ------------

机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用

摘要: 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类.总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型:当各特征相关性较小时,朴素贝叶斯分类性能最为良好.另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算.本文详述了朴素贝叶斯分类的统计学

Python机器学习库资料汇总

声明:以下内容转载自平行宇宙. Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: 比较成熟的(广播)函数库: 用于整合C/C++和Fortran代码的工具包: 实用的线性代数.傅里叶变换和随机数生成函数. SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化.线性代数.积分.插值.特殊函数.快速傅里叶变换.信号处理和图像处理.常微分方程求解和其他科

Python 爬虫库

0x00 网络 1)通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络库(绑定libcurl). urllib3 – Python HTTP库,安全连接池.支持文件post.可用性高. httplib2 – 网络库. RoboBrowser – 一个简单的.极具Python风格的Python库,无需独立的浏览器即可浏览网页. MechanicalSoup -一个与网站自动交互Python库. mecha

15 个有趣的 JavaScript 与 CSS 库

原文转载:http://www.codeceo.com/article/15-interesting-js-css-framework.html 1. Wing Wing 是一个微型(压缩后仅有4KB)响应式的 CSS 框架,它提供了一个 12 列响应式网格以及基础的样式组件集,可为你的建站工作打下坚实的基础.当然,这个项目最酷的地方在于,它绝大多数的 HTML 元素都是自动样式化的,而不需要任何额外的类.希望你会喜欢! HERE:Wing 项目地址 2. Shave Shave 是一个零依赖.

[resource]Python机器学习库

reference: http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: 比较成熟的(广播)函数库: 用于整合C/C++和Fortran代码的工具包: 实用的线性代数.傅里叶变换和随机数生成函数. SciPy是一个开源的Python算法库和数学工具包,S