关于中文字符匹配js正则表达式

普遍使用的正则是[\u4e00-\u9fa5]，但这个范围并不完整。例如：

/[\u4e00-\u9fa5]/.test( ‘?‘ ) // 测试部首?，返回false

根据Unicode 5.0版编码，要准确的判断一个中文字符要包括：

范围含义范围含义

2E80-2EFF CJK 部首补充 2F00-2FDF 康熙字典部首

3000-303F CJK 符号和标点 31C0-31EF CJK 笔画

3200-32FF 封闭式 CJK 文字和月份 3300-33FF CJK 兼容

3400-4DBF CJK 统一表意符号扩展 A 4DC0-4DFF 易经六十四卦符号

4E00-9FBF CJK 统一表意符号 F900-FAFF CJK 兼容象形文字

FE30-FE4F CJK 兼容形式 FF00-FFEF 全角ASCII、全角标点

因此，正确的匹配中文字符正则表达式为：

var rcjk = /[\u2E80-\u2EFF\u2F00-\u2FDF\u3000-\u303F\u31C0-\u31EF\u3200-\u32FF\u3300-\u33FF\u3400-\u4DBF\u4DC0-\u4DFF\u4E00-\u9FBF\uF900-\uFAFF\uFE30-\uFE4F\uFF00-\uFFEF]+/g;

如果不希望匹配标点、符号，在正则中去掉对应的范围即可：

3000-303F CJK 符号和标点 FF00-FFEF 全角ASCII、全角标点

时间： 2024-10-07 23:27:42

关于中文字符匹配js正则表达式的相关文章

常用js正则表达式大全

一.校验数字的js正则表达式 1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$ 3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 7 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$ 8 正数.负数.和小数:^(\-|\+)?\d+(\.\d+)?$ 9 有两位小数的正实数:^[

js正则表达式验证、匹配数字、匹配字符串、匹配中文、匹配任意字符备忘录

本文转自:91博客 :原文地址:http://www.9191boke.com/235792704.html 正则表达式或“regex”用于匹配字符串的各个部分,下面是我创建正则表达式的备忘录.包括一些常用的验证.匹配数字.匹配字符串.匹配中文.匹配任意字符串. 匹配正则使用 .test() 方法 let testString = "My test string"; let testRegex = /string/; testRegex.test(testString); 匹配多个模

匹配中文字符的正则表达式： [/u4e00-/u9fa5]

原文:匹配中文字符的正则表达式: [/u4e00-/u9fa5] 这里是几个主要非英文语系字符范围(google上找到的): 2E80-33FFh:中日韩符号区.收容康熙字典部首.中日韩辅助部首.注音符号.日本假名.韩文音符,中日韩的符号.标点.带圈或带括符文数字.月份,以及日本的假名组合.单位.年号.月份.日期.时间等. 3400-4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字. 4E00-9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字. A000-

正则表达式匹配中文字符及标点

可以写成这样 string strRegex = @"[\u4e00-\u9fa5]|[\<\>\--\:\,\.\"\"\<\>\!]"; 其中前半部分表示匹配中文字符,后半部分为需要匹配的标点符号. 另, 对于html源码的处理,建议使用HtmlAgilityPack,用下面的代码去掉其中的脚本.样式或者注释内容. public static HtmlDocument InitializeHtmlDoc(string htmlSt

(转)js正则表达式之中文验证

今天做表单提交的输入框条件验证,验证是否包含中文:网上搜了一圈基于js正则表达式的验证基本不好用,而且大多都是出自一两篇原文的转帖!到底什么才是拿来主义呢.根据搜索结果,本文取精华,告诉大家一个好用的中文验证方法. 使用js正则表达式匹配中文,需要了解中文字符在unicode编码中所处的区间.这样才能够了解表达式的匹配原理. 首先在正则表达式中使用 Unicode,必须使用\u开头,接着是字符编码的四位16进制表现形式简单匹配中文方法: /[^\u0000-\u00FF]/

JS_正则表达式_验证中文字符

正则表达式:"^[\u4e00-\u9fa5]{0,}$" . "/^[\u4E00-\u9FA5]{1,5}$/" 的含义: 在JS里,\uXXXX 是转义字符,"XXXX"对应的是16进制Unicode编码: ^ 匹配一行的开始.例如正则表达式^123能够匹配字符串"12345"的开始,但是不能匹配"012345":[\u4e00-\u9fa5] 指匹配在这两个Unicode编码之间的字符;{0,} 重

js正则表达式之中文验证(转)

原文地址:http://houfeng0923.iteye.com/blog/1035321 今天做表单提交的输入框条件验证,验证是否包含中文:网上搜了一圈基于js正则表达式的验证基本不好用,而且大多都是出自一两篇原文的转帖!到底什么才是拿来主义呢.根据搜索结果,本文取精华,告诉大家一个好用的中文验证方法. 使用js正则表达式匹配中文,需要了解中文字符在unicode编码中所处的区间.这样才能够了解表达式的匹配原理. 首先在正则表达式中使用 Unicode,必须使用\u开头,接着是字符编码的四位

JS 正则表达式否定匹配（正向前瞻）

引言:JS 正则表达式是 JS 学习过程中的一大难点,繁杂的匹配模式足以让人头大,不过其复杂性和其学习难度也赋予了它强大的功能.文章从 JS 正则表达式的正向前瞻说起,实现否定匹配的案例.本文适合有一定 JS 正则表达式基础的同学,如果对正则表达式并不了解,还需先学习基础再来观摩这门否定大法. 一.标签过滤需求不知道大家在写JS有没有遇到过这样的情况,当你要处理一串字符串时,需要写一个正则表达式来匹配当中不是 XXX 的文本内容.听起来好像略有些奇怪,匹配不是 XXX 的内容,不是 XXX 我

常用的正则表达式（例如：匹配中文、匹配html）（转载）

匹配中文字符的正则表达式: [u4e00-u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^x00-xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式:ns*r 评注:可以用来删除空白行匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?|<.*? /> 评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能