如何用正则提取中文字符

1.首先得把字符串转成utf-8的格式:

$str = iconv(charset, ‘utf-8‘, $str);//charset为你的字符原来的格式,包括:gb2312(简体中文),big5(繁体中文),utf8

2.使用preg_match_all进行提取:

preg_match_all(‘/[\x{4e00}-\x{9fa5}]+/u‘, $str, $r);中文在utf8中代码是\u4e00-\u9fa5,但是是十六进制,所以转换成\x,这样得到的$r为二维数组,这个preg_match_all()函数第四个参数还有一个默认的PREG_PATTERN_ORDER,具体可以参考手册
时间: 2024-10-13 01:55:43

如何用正则提取中文字符的相关文章

使用Python提取中文字符

#-*- coding: utf-8 -*- ################################################# #功能:国际化测试,用于提取应用设计包中中文字符,并输出report #yuebai 20160328 #解压---筛选---整理路径---提取中文---输出报告 # ################################################# import os import shutil import sys import r

正则匹配中文字符

有如下字符: <li><a href="/song?id=185613">惊叹号</a></li><li><a href="/song?id=185614">迷魂曲</a></li> 怎么写正则才能匹配出" 迷魂曲"呢? 答: reg1 = /id=185614">([u4e00-\u9fa5]{3})<\/a>/g; va

如何用正则提取括号内的字符

1.首先判断有没有括号, if(preg_match("/\([\s\S]*?\)/",$str)){ echo "包含括号"; } 2. preg_match_all("/\(([\s\S]*?)\)/",$str,$r,PREG_PATTERN_ORDER);$r[1][0]则为括号内的内容

抽取网页源代码中的中文字符

通过正则匹配中文字符,写入新的文本,我在这里删除了表示字体的中文 import re f=open(r'C:\Users\lenovo\Desktop\1.txt','r',encoding='utf8') m= re.compile(u"[\u4e00-\u9fa5]+") p=open(r'C:\Users\lenovo\Desktop\2.txt','w',encoding='utf8') for line in f.readlines(): list=re.findall(m,

php 正则对于中文汉字字符的提取

    正则是个好东西 正则不光可以对英语字符 特殊字符进行提取 对于中文字符 日语字符等等都可以提取 再也不要用(.*?)来匹配了 而且 也不准确! 放在例子先:取出下面字符中的所有中文字符: $str = "这%里是^测&试*中$心,欢.迎e你4的6到k来,我r们a呜呜呜we这y里w安安生生et一ef直在努力gr着找寻啊啊最佳gr的伙伴,希望您的$$%加盟可以@推动他们GH团队高速发展!"; $code = "/[".chr(0xa1)."-&

iOS 中文字符判断 正则NSRegularExpression 谓词NSPredicate 和 NSRange

废话不说,直接上代码 #pragma mark - 中文字符判断 - (BOOL)validateContainsChinese:(NSString *)content { NSRegularExpression *regularexpression = [[NSRegularExpression alloc] initWithPattern:@"^[\u4e00-\u9fa5]" options:NSRegularExpressionCaseInsensitive error:nil

js正则提取数字小数,提取中文,提取英文

var value="污染物:PM2.5"; //提取中文 console.log(value.replace(/[^\u4E00-\u9FA5]/g,'')); //提取英文 console.log(value.replace(/[^a-zA-Z]/g, '')); //提取数字 console.log(value.replace(/[^\d.]/g, '')); 原文地址:https://www.cnblogs.com/yeminglong/p/10325789.html

中文字符,全角字符的正则表达式(转载)

经过测试其中匹配双字节字符(包括汉字在内):[^\x00-\xff]非常好用推荐一下 两外推荐个网址http://mscenter.edu.cn/blog/yongsheng/archive/2004/11/19/308.html 这个家伙收录的正则很多,呵呵 关键字:正则表达式  模式匹配 Javascript 摘要:收集一些常用的正则表达式. 正则表达式用于字符串处理,表单验证等场合,实用高效,但用到时总是不太把握,以致往往要上网查一番.我将一些常用的表达式收藏在这里,作备忘之用.本贴随时会

[转载]正则匹配任意字符(包括换行)

(注:元字符包括 | ( ) [ ] { } ^ $ * + ? . ) 匹配中文字符的正则表达式: [u4e00-u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内):[^x00-xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式:ns*r评注:可以用来删除空白行 匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?</>|<.*? />评注:网上流传