python 匹配中文和英文

在处理文本时经常会匹配中文名或者英文word,python中可以在utf-8编码下方便的进行处理。

中文unicode编码范围[\u4e00-\u9fa5]

英文字符编码范围[a-zA-Z]

此时匹配连续的中文或者英文就很方便了,例如:

>>> import re
>>> strings = u‘中国china美国American‘
>>> print strings
中国china美国American
>>> ch_pat = re.compile(ur‘[\u4e00-\u9fa5]+‘)
>>> en_pat = re.compile(‘[a-zA-Z]+‘)
>>> ch_words = ch_pat.findall(strings)
>>> en_words = en_pat.findall(strings)
>>> print ch_words
[u‘\u4e2d\u56fd‘, u‘\u7f8e\u56fd‘]
>>> print en_words
[u‘china‘, u‘American‘]
时间: 2024-07-28 17:03:24

python 匹配中文和英文的相关文章

小米2S 中文和英文支持TWRP,真实双系统支持

经过我几天的努力小米2S的TWRP 的功能已经完美了. 支持功能 : 中文和英文显示能相互切换 真实双系统功能已经完成95%. 刷入手机方法.由于时间原因我只制作了img文件.没有制作成卡刷包格式. 刷入方法用 Fastboot 命令: fastboot flash recovery recovery.img fastboot reboot 源代码地址:https://github.com/sndnvaps/android_bootable_recovery_twrp 发布日期 2014-08-

中文和英文的比较

全本的粗浅观察大约得出以下的一些论点. (现代文)中文和英文比较最大的一个弊端是输入复杂度和基础符号复杂度.然而在其他很多方面,中文的能力应该超过英文. 英文或拉丁字母化文字另外有个词法上的优势是基于发音和音节的单词随意构造. 这个词法上的好处是英文可以借用大量外来语,尤其法语,来提升语言的文学性和趣味性. 另一个显著的好处是比较低的发音二义性(英文很多单词多词一音,这是造词的问题,也是英文的幽默的地方,不得不承认英文在各方面(尤其是其弱点上)表现出其幽默的特点). 还有一个好处是组合词.英文中

JS-只能输入中文和英文

<span style="font-family:KaiTi_GB2312;">转自:<a target=_blank href="http://www.cnblogs.com/liupeizhi/articles/2487472.html">http://www.cnblogs.com/liupeizhi/articles/2487472.html</a></span> </pre><pre nam

python2.7.x的字符串编码到底什么鬼?(中文和英文的处理)

一直以来我其实一直对python的编码弄得非常晕,能正常编码,也能处理一些情况.但是始终不明白有些问题究竟为何出,原因是什么,为什么要这样用. 今天晚上正好好好研究了一番解答了自己心中的困惑. Q:python2.7.x里面的中文表示到底是什么鬼? A:直接来看看 In [23]: x = '好不好喝都要喝' In [24]: x Out[24]: '\xe5\xa5\xbd\xe4\xb8\x8d\xe5\xa5\xbd\xe5\x96\x9d\xe9\x83\xbd\xe8\xa6\x81\

python re匹配中文和非中文

import re data = """我始终!@@##¥%…………&alkjdfsb1234\n 566667是中国人woaldsfkjzlkcjxv123*())<> """ # 匹配所有汉字 print(re.findall('[\u4e00-\u9fa5]', data)) # 匹配所有单字符,英文,数字,特殊符号 print(re.findall('[\x00-\xff]', data)) # 匹配所有非单字符,入汉

shell中的 &nbsp; 中文和英文 &nbsp; 双引号

使用sed替换文本中的字符时,添加字符时不小心添加了个中文的双引号,结果替换时,总是不能将其替换掉. 文件名称为a.txt,文本内容如下: "" https://www.baidu.com/ 想把""替换掉,使用命令sed -i 's#""##g' a.txt 总是替换不掉,在这里可以一眼看出是两种不同的双引号,但在shell里不容易注意到,想着是不是需要转义字符,使用转义字符也不行. 最后发现命令中的双引号似乎比文本内容中的站的比较直,恍然大悟

iOS 支持中文和英文的语言本地化

今日学习了语言本地化完整的流程,撰此文以记之. 一.创建.strings文件,并本地化. 1.新建项目,创建.strings文件. 2.本地化 3.添加支持的语言 选中PROJECT下的项目->Localization -> 点击+添加.这里添加简体中文的.strings文件. 勾选三个文件,项目中就会创建名为Language.strings(Chinese(Simplified))文件. finder中项目目录下就会创建名为zh-Hans.lproj文件夹. 同样的方式可以创建English

js正则表达式验证中文和英文及数字

<script type="text/javascript"> function check(v){  var regex = new RegExp("^([\u4E00-\uFA29]|[\uE7C7-\uE7F3]|[a-zA-Z0-9_]){1,20}$");//不包含"-"  //var regex = new RegExp("^([\u4E00-\uFA29]|[\uE7C7-\uE7F3]|[a-zA-Z0-9_

清除NSString中的标点,数字,空格。只保留中文和英文。

NSString* searchString = [[searchBar.text componentsSeparatedByCharactersInSet:[[NSCharacterSet letterCharacterSet] invertedSet]] componentsJoinedByString:@""];