python re匹配中文和非中文

import re

data = """我始终!@@##¥%…………&alkjdfsb1234\n
566667是中国人woaldsfkjzlkcjxv123*())<>
"""

# 匹配所有汉字
print(re.findall(‘[\u4e00-\u9fa5]‘, data))

# 匹配所有单字符,英文,数字,特殊符号
print(re.findall(‘[\x00-\xff]‘, data))

# 匹配所有非单字符,入汉字和省略号
print(re.findall(‘[^\x00-\xff]‘, data))

原文地址:https://www.cnblogs.com/zhangjian0092/p/12332381.html

时间: 2024-11-07 01:48:41

python re匹配中文和非中文的相关文章

【Python】Python在文本分析中将中文和非中文进行分割

1.问题描述 进行文本分析的时候需要将中文和非中文进行分开处理,下面通过Python将文本中的中文部分提取出来进行需要的处理. 2.问题解决 开发环境:Linux 程序代码如下:split.py #!/usr/bin/python #-*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding("utf8") import re #导入正则表达式模块:re模块 def translate(inputFile, ou

python 匹配中文和英文

在处理文本时经常会匹配中文名或者英文word,python中可以在utf-8编码下方便的进行处理. 中文unicode编码范围[\u4e00-\u9fa5] 英文字符编码范围[a-zA-Z] 此时匹配连续的中文或者英文就很方便了,例如: >>> import re >>> strings = u'中国china美国American' >>> print strings 中国china美国American >>> ch_pat = re

mysql 不能插入中文和显示中文

一)不能显示中文解决办法: 参考:http://bbs3.chinaunix.net/thread-880131-1-1.html 1:windows平台,因为windows操作系统默认的是用了gb2312这个字符,而mysql在安装的时候, 默认的是客户端和服务器都用了latin1,所以这就导致一个字符集和字符校验不匹配的问题, 这个时候只需要找到mysql的配置文件my.ini 找到default-character_set ,把他的参数改 成gb2312就可以了,一共有两个这样的参数,一个

关于mysql数据库插入数据,不能插入中文和出现中文乱码问题

首先,推荐一篇博客:http://www.cnblogs.com/sunzn/archive/2013/03/14/2960248.html 当时,我安装完mysql数据库后,新建一个数据库后插入数据,首先出现了中文不能插入mysql数据库的问题,解决办法如下: 修改mysql文件中my.ini里的 sql-mode="STRICT_TRANS_TABLES,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION"变成sql-mode="NO_A

正则替换A标签中的非中文字符

文本如下 <a href='http://blog.mcshell.org/'>@中文aaasd英sdf爽sdfaa</a> <a href='http://blog.mcshell.org/'>@刘aaasd文sd23f爽sdfaa</a> <a href='http://blog.mcshell.org/'>刘aaasd英sdf爽sda</a> regex如下: [^<>\x{4e00}-\x{9fa5}]+(?=[^

wprintf、wcout输出中文和unicode中文字符串的转换问题

%E4%BD%BF%E7%94%A8CHttpFile%E4%BB%8E%E6%9C%8D%E5%8A%A1%E5%99%A8%E7%AB%AF%E6%AD%A3%E7%A1%AE%E7%9A%84%E8%AF%BB%E5%8F%96%E6%95%B0%E6%8D%AE ??????spoBAByG??υ????d? http://auto.315che.com/ztzhidoud2/qa23963522.htm http://auto.315che.com/kaiyix3/qa23989881

Python: 去掉字符串中的非数字(或非字母)字符

>>> crazystring = ‘dade142.;!0142f[.,]ad’ 只保留数字>>> filter(str.isdigit, crazystring)‘1420142′ 只保留字母>>> filter(str.isalpha, crazystring)‘dadefad’ 只保留字母和数字>>> filter(str.isalnum, crazystring)‘dade1420142fad’ 如果想保留数字0-9和小数点

python 判断字符串中是否只有中文字符

学习了:https://segmentfault.com/q/1010000007898150 def is_all_zh(s): for c in s: if not ('\u4e00' <= c <= '\u9fa5'): return False return True 原文地址:https://www.cnblogs.com/stono/p/9102073.html

Python正则匹配字母大小写不敏感在读xml中的应用

需要解决的问题:要匹配字符串,字符串中字母的大小写不确定,如何匹配? 问题出现之前是使用字符串比较的方式,比如要匹配'abc',则用语句: 1 if s == 'abc':#s为需要匹配的字符串 2 print '匹配成功\n' 现在的问题是s可能是Abc.ABC等等,所以需要大小写不敏感的匹配,如果把需要匹配的模式的大小写进行罗列,那即使是三个字母的短模式也是很麻烦,查了一下,正则表达式re模块中有个参数flags=re.I,这样就可以大小写不敏感的匹配了,示例如下: 1 import re