python正则表达式匹配中文

# -*- coding: utf-8 -*-
import re
def findPart(regex, text, name):
    res=re.findall(regex, text)
    if res:
        print "There are %d %s parts:\n"% (len(res), name)
        for r in res:
            print "\t",r.encode("utf8")
        print

text ="#who#helloworld#a中文x#"
usample=unicode(text,‘utf8‘)
findPart(u"#[\w\u2E80-\u9FFF]+#", usample, "unicode chinese")
注：
 几个主要非英文语系字符范围
2E80～33FFh：中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符，中日韩的符号、标点、带圈或带括符文数字、月份，以及日本的假名组合、单位、年号、月份、日期、时间等。
3400～4DFFh：中日韩认同表意文字扩充A区，总计收容6,582个中日韩汉字。
4E00～9FFFh：中日韩认同表意文字区，总计收容20,902个中日韩汉字。
A000～A4FFh：彝族文字区，收容中国南方彝族文字和字根。
AC00～D7FFh：韩文拼音组合字区，收容以韩文音符拼成的文字。
F900～FAFFh：中日韩兼容表意文字区，总计收容302个中日韩汉字。
FB00～FFFDh：文字表现形式区，收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角
(
#!/usr/bin/python3
# -*- coding: UTF-8 -*-

import re
message = u‘天人合一‘.encode(‘utf8‘)
print(re.search(u‘人‘.encode(‘utf8‘), message).group())

交互模式下的例子
      >>> import re
      >>> s=‘Phone No. 010-87654321‘
      >>>
      >>> r=re.compile(r‘(\d+)-(\d+)‘)
      >>> m=r.search(s)
      >>> m
       <_sre.SRE_Match object at 0x010EE218>

)

时间： 2024-12-08 19:11:50

python正则表达式匹配中文的相关文章

正则表达式匹配中文

/** * 正则表达式匹配中文 */ - (BOOL)isRegexMatching:(NSString *)str; { NSString *regex = @"^[\u4E00-\u9FFF]+$"; return [[NSPredicate predicateWithFormat:@"SELF MATCHES %@", regex] evaluateWithObject:str]; }

Python: 正则表达式匹配反斜杠 "\"

Python正则表达式匹配反斜杠 "\" eg: >>>a='w\w\w' 'w\\w\\w' # 打印出来的 "\\" 被转义成一个反斜杠 "\" 如果需要匹配字符串a,需要匹配一个反斜杠 "\" >>>re.split(r'\\',a) ['w','w','w',] 先对字符串转义,再进行正则表达式转义由于原始字符串中所有字符直接按照字面意思来使用,不转义特殊字符,故不做字符串转义

今天写程序的时候遇到判断需要使用多个if(){}else{}语句,观察了一下需要判断的条件,发现判断的条件可以变为对条件最后几个汉字的判断,就想用正则表达式来对汉字判断,写完后,想到可以用Java中String类的endwith()方法来对汉字实现匹配,例如 String str="世界你好我喜欢编程"; if(str.endwith("编程")){ dosomething(); }else{ dosomething(); } 以下是endwith()方法的源码:

【转】正则表达式匹配中文，英文字母和数字及_的写法！同时控制长度

匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配中文,英文字母和数字及_: ^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10} ^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$ 1.一个正则表达式,只含有汉字.数字.字母.下划线不能以下划线开头和结尾:^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$ 其中:^

PHP使用正则表达式匹配中文,有部分匹配不出来的解决办法

今天在开发的时候有个需要,就是匹配出一条计价公式里的材料文本,示例:[羊脂玉价格]*[羊脂玉重量]+[白金价格]*[白金重量]+[皓石价格]*[皓石重量]+[钻石价格]*1.5*[钻石重量]+[硬金价格]*1.67*[硬金重量],要匹配出[***_价格],就是中括号内,以_价格结尾的字符串(代表材料的名称),我用的语言是PHP,写了一条正则表达式出来,代码如下: $pattern = "/\\[([^_价格]+)_价格\\]/"; $res = preg_match_all($patt

sublimetext 使用正则表达式匹配中文

[\x{4e00}-\x{9fa5}] ============================================= 参考资料 1.在javascript下正确的\x4e00-\x9fa5并不完全适合php中文正则表达式:2.匹配中文全角字符的正则: ^[\x80-\xff]*^/ :3.GB2312.汉字.字母.数字.下划线正则表达式:[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+:4.UTF-8汉字.字母.数

正则表达式匹配中文，英文字母和数字及_的写法！同时控制长度

正则表达式匹配中文字符及标点

可以写成这样 string strRegex = @"[\u4e00-\u9fa5]|[\<\>\--\:\,\.\"\"\<\>\!]"; 其中前半部分表示匹配中文字符,后半部分为需要匹配的标点符号. 另, 对于html源码的处理,建议使用HtmlAgilityPack,用下面的代码去掉其中的脚本.样式或者注释内容. public static HtmlDocument InitializeHtmlDoc(string htmlSt

Python 正则表达式匹配次数

管道可以匹配多个正则表达式中的一个 >>> >>> m=re.search(r'Batman|Tina Fey','Batman and Tina Fey')>>> print(m.group())Batman>>> m=re.search(r'Batman|Tina Fey','Tina Fey and Batman')>>> print(m.group())Tina Fey>>> 问号表明它前面