【456】python string 类内容(去除文本标点)

主要用于 NLP 处理,里面存在一些常量列表,包括数字、字母、大写字母、小写字母、标点符号、空格等。

参考:6.1. string — Common string operations

可以用于删除文本中的标点符号,将标点符号 replace 为 空。

>>> import string
>>> string.punctuation
‘!"#$%&\‘()*+,-./:;<=>[email protected][\\]^_`{|}~‘
>>> string.digits
‘0123456789‘
>>> string.ascii_letters
‘abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ‘
>>> string.ascii_lowercase
‘abcdefghijklmnopqrstuvwxyz‘
>>> string.ascii_uppercase
‘ABCDEFGHIJKLMNOPQRSTUVWXYZ‘
>>> string.hexdigits
‘0123456789abcdefABCDEF‘
>>> string.printable
‘0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\‘()*+,-./:;<=>[email protected][\\]^_`{|}~ \t\n\r\x0b\x0c‘
>>> string.whitespace
‘ \t\n\r\x0b\x0c‘

6.1.1. String constants

The constants defined in this module are:

string.ascii_letters

The concatenation of the ascii_lowercase and ascii_uppercase constants described below. This value is not locale-dependent.

string.ascii_lowercase

The lowercase letters ‘abcdefghijklmnopqrstuvwxyz‘. This value is not locale-dependent and will not change.

string.ascii_uppercase

The uppercase letters ‘ABCDEFGHIJKLMNOPQRSTUVWXYZ‘. This value is not locale-dependent and will not change.

string.digits

The string ‘0123456789‘.

string.hexdigits

The string ‘0123456789abcdefABCDEF‘.

string.octdigits

The string ‘01234567‘.

string.punctuation

String of ASCII characters which are considered punctuation characters in the C locale.

string.printable

String of ASCII characters which are considered printable. This is a combination of digits, ascii_letters, punctuation, and whitespace.

string.whitespace

A string containing all ASCII characters that are considered whitespace. This includes the characters space, tab, linefeed, return, formfeed, and vertical tab.

原文地址:https://www.cnblogs.com/alex-bn-lee/p/12273817.html

时间: 2024-10-22 06:22:30

【456】python string 类内容(去除文本标点)的相关文章

113、Java中String类之字符串文本复杂二次拆分

01.代码如下: package TIANPAN; /** * 此处为文档注释 * * @author 田攀 微信382477247 */ public class TestDemo { public static void main(String args[]) { String str = "张三:20|李四:21|王五:22"; // 定义字符串 String result[] = str.split("\\|"); // 第一次拆分 for (int x =

从C# String类理解Unicode(UTF8/UTF16)

上一篇博客:从字节理解Unicode(UTF8/UTF16).这次我将从C# code 中再一次阐述上篇博客的内容. C# 代码看UTF8 代码如下: string test = "UTF-8你"; //把字符转换为 byte[] byte[] bytearray_UTF8 = Encoding.UTF8.GetBytes(test); // byte[] to 16 进制的字符形式 String hexString = BitConverter.ToString(bytearray_

《Python CookBook2》 第一章 文本 - 测试一个对象是否是类字符串 &amp;&amp; 字符串对齐

测试一个对象是否是类字符串 任务 有时候需要测试一个对象,尤其是当你在写一个函数或者方法的时候,经常需要测试传入的参数是否是一个字符串. 解决方案 利用内建的isinstance 和basestring 来简单快速地查询某个对象是否是字符串或者是Unicode 对象方法,如下: 代码: >>> def isAString(aaa): return isinstance(aaa,basestring) 运行结果: >>> isAString('aaa') True 字符串

python的类(简介,没什么内容)

参考: https://www.cnblogs.com/studyDetail/p/6446180.html (python的类) https://www.cnblogs.com/zunchang/p/7965685.html (面向过程和面向对象编程,推荐) http://xukaizijian.blog.163.com/blog/static/170433119201111894228877/ (python类的内置方法) 类的定义有点像以下的格式: class ClassName([Bas

ASP.Net string 类的扩展方法 [转]

string 类的扩展方法列表(基本相同于 IEnumerable<T> 接口的成员列表): Aggregate<>     //累加 All<>        //是否都满足条件 Any<>        //是否有一个满足条件 AsEnumerable<>  // AsParallel<>    // AsQueryable<>    // Average<>      //平均值 Cast<>

[python] 使用scikit-learn工具计算文本TF-IDF值

在文本聚类.文本分类或者比较两个文档相似程度过程中,可能会涉及到TF-IDF值的计算.这里主要讲述基于Python的机器学习模块和开源工具:scikit-learn. 希望文章对你有所帮助,相关文章如下: [python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒 Python简单实现基于VSM的余弦相似度计算 基于VSM的命名实体识别.歧义消解和指代消解 [python] 使用Jieba工具中文分词及文本聚类概念 目录: 一.Scikit-learn概念 1.概念知识 2

string类总结第一部分函数介绍

在前面几章,看了整个String类的源码,给每个方法都行写了注释,但是太过凌乱,今天我就把String类的方法整理归纳,然后再讲一下String类比较难以理解的部分 特此声明:本文篇幅较大,涵盖知识点较多,请耐着性子读下去,毕竟写文章不易,写知识性文章更加不易! 第一部分:函数介绍 这是第一部分的内容,由于String的函数较多,我将他们分为四大类,分别是构造性函数.转换性函数.功能性函数以及私有函数 私有函数:主要是把属性以及一些私有方法列出来 构造性函数:也就是字符串的构造器 转换性函数:负

java String 类 基础笔记

字符串是一个特殊的对象. 字符串一旦初始化就不可以被改变. String s = "abc";//存放于字符串常量池,产生1个对象 String s1=new String("abc");//堆内存中new创建了一个String对象,产生2个对象 String类中的equals比较字符串中的内容. 常用方法: 一:获取 1.获取字符串中字符的个数(长度):length();方法. 2.根据位置获取字符:charAt(int index); 3.根据字符获取在字符串中

String类

一.概述 Sting s1 = "abc";    //s1是一个类类型变量,"abc"是一个对象. String s2 = new String("abc"); //s1 . s2 的区别: 前者在内存中有一个对象,后者在内存中有两个对象. s1.equals(s2) 为true  因为 String复写了equals方法 二.常见的功能-获取和判断 获取: 1.int length(); 获取长度 2.char chatAt(int inde