python正则表达式匹配中文

# -*- coding: utf-8 -*-
import re
def findPart(regex, text, name):
    res=re.findall(regex, text)
    if res:
        print "There are %d %s parts:\n"% (len(res), name)
        for r in res:
            print "\t",r.encode("utf8")
        print

text ="#who#helloworld#a中文x#"
usample=unicode(text,‘utf8‘)
findPart(u"#[\w\u2E80-\u9FFF]+#", usample, "unicode chinese")
注:
 几个主要非英文语系字符范围
2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角
(
#!/usr/bin/python3
# -*- coding: UTF-8 -*-

import re
message = u‘天人合一‘.encode(‘utf8‘)
print(re.search(u‘人‘.encode(‘utf8‘), message).group())

交互模式下的例子
      >>> import re
      >>> s=‘Phone No. 010-87654321‘
      >>>
      >>> r=re.compile(r‘(\d+)-(\d+)‘)
      >>> m=r.search(s)
      >>> m
       <_sre.SRE_Match object at 0x010EE218>

)

  

时间: 2024-10-04 18:30:02

python正则表达式匹配中文的相关文章

正则表达式匹配中文

/** * 正则表达式匹配中文 */ - (BOOL)isRegexMatching:(NSString *)str; { NSString *regex = @"^[\u4E00-\u9FFF]+$"; return [[NSPredicate predicateWithFormat:@"SELF MATCHES %@", regex] evaluateWithObject:str]; }

Python: 正则表达式匹配反斜杠 &quot;\&quot;

Python正则表达式匹配反斜杠 "\" eg: >>>a='w\w\w' 'w\\w\\w' #  打印出来的 "\\" 被转义成 一个反斜杠 "\" 如果需要匹配字符串a,需要匹配一个反斜杠 "\" >>>re.split(r'\\',a) ['w','w','w',] 先对字符串转义,再进行正则表达式转义 由于原始字符串中所有字符直接按照字面意思来使用,不转义特殊字符,故不做字符串转义

java之endwith()方法以及正则表达式匹配中文

今天写程序的时候遇到判断需要使用多个if(){}else{}语句,观察了一下需要判断的条件,发现判断的条件可以变为对条件最后几个汉字的判断,就想用正则表达式来对汉字判断,写完后,想到可以用Java中String类的endwith()方法来对汉字实现匹配,例如 String str="世界你好我喜欢编程"; if(str.endwith("编程")){ dosomething(); }else{ dosomething(); } 以下是endwith()方法的源码:

【转】正则表达式 匹配中文,英文字母和数字及_的写法!同时控制长度

匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配中文,英文字母和数字及_: ^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10} ^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$ 1.一个正则表达式,只含有汉字.数字.字母.下划线不能以下划线开头和结尾:^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$  其中:^

PHP使用正则表达式匹配中文,有部分匹配不出来的解决办法

今天在开发的时候有个需要,就是匹配出一条计价公式里的材料文本,示例:[羊脂玉价格]*[羊脂玉重量]+[白金价格]*[白金重量]+[皓石价格]*[皓石重量]+[钻石价格]*1.5*[钻石重量]+[硬金价格]*1.67*[硬金重量],要匹配出[***_价格],就是中括号内,以_价格结尾的字符串(代表材料的名称),我用的语言是PHP,写了一条正则表达式出来,代码如下: $pattern = "/\\[([^_价格]+)_价格\\]/"; $res = preg_match_all($patt

sublimetext 使用正则表达式匹配中文

[\x{4e00}-\x{9fa5}] ============================================= 参考资料 1.在javascript下正确的\x4e00-\x9fa5并不完全适合php中文正则表达式:2.匹配中文全角字符的正则:   ^[\x80-\xff]*^/  :3.GB2312.汉字.字母.数字.下划线正则表达式:[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+:4.UTF-8汉字.字母.数

正则表达式 匹配中文,英文字母和数字及_的写法!同时控制长度

匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配中文,英文字母和数字及_: ^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10} ^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$ 1.一个正则表达式,只含有汉字.数字.字母.下划线不能以下划线开头和结尾:^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$  其中:^

正则表达式匹配中文字符及标点

可以写成这样 string strRegex = @"[\u4e00-\u9fa5]|[\(\)\<\>\--\:\,\.\"\"\<\>\!]"; 其中前半部分表示匹配中文字符,后半部分为需要匹配的标点符号. 另, 对于html源码的处理,建议使用HtmlAgilityPack,用下面的代码去掉其中的脚本.样式或者注释内容. public static HtmlDocument InitializeHtmlDoc(string htmlSt

Python 正则表达式 匹配次数

管道可以匹配多个正则表达式中的一个 >>> >>> m=re.search(r'Batman|Tina Fey','Batman and Tina Fey')>>> print(m.group())Batman>>> m=re.search(r'Batman|Tina Fey','Tina Fey and Batman')>>> print(m.group())Tina Fey>>> 问号表明它前面