正则表达式的汉字匹配

这里是几个主要非英文语系字符范围

2E80～33FFh：中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符，中日韩的符号、标点、带圈或带括符文数字、月份，以及日本的假名组合、单位、年号、月份、日期、时间等。

3400～4DFFh：中日韩认同表意文字扩充A区，总计收容6,582个中日韩汉字。

4E00～9FFFh：中日韩认同表意文字区，总计收容20,902个中日韩汉字。

A000～A4FFh：彝族文字区，收容中国南方彝族文字和字根。

AC00～D7FFh：韩文拼音组合字区，收容以韩文音符拼成的文字。

F900～FAFFh：中日韩兼容表意文字区，总计收容302个中日韩汉字。

FB00～FFFDh：文字表现形式区，收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$
理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异
再到msn.co.jp复制了个‘お‘, 也不得行..

然后把范围扩大到^[\u2E80-\u9FFF]+$, 这样倒是都通过了, 这个应该就是匹配中日韩文字的正则表达式了, 包括我們臺灣省還在盲目使用的繁體中文

而关于中文的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近

需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式, 实际上繁体字也在里面, 我用测试器测试了下‘中華人民共和國‘, 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是一样的结果

正则表达式的汉字匹配

时间： 2025-01-08 21:58:54

正则表达式的汉字匹配的相关文章

shell 正则表达式与文件名匹配

1) . : 匹配任意单ASCII 字符,可以为字母,或为数字.2) 举例: ..XC..匹配deXC1t.23XCdf等,.w..w..w.匹配rwxrw-rw-行首以^匹配字符串或字符序列1) ^ : 允许在一行的开始匹配字符或单词.2) 举例: ^.01 匹配0011cx4.c01sdf 等,^d 匹配drwxr-xr-x.drw-r--r--等行尾以$匹配字符串或字符 1) $ : 在行尾匹配字符串或字符,$符号放在匹配单词后.2) 举例: trouble$ 匹配以单词trouble结

JAVA之旅（三十四）——自定义服务端，URLConnection，正则表达式特点，匹配，切割，替换，获取，网页爬虫

JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫我们接着来说网络编程,TCP 一.自定义服务端我们直接写一个服务端,让本机去连接,可以看到什么样的效果 package com.lgl.socket; import java.io.IOException; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket; publ

Delphi 正则表达式语法(3): 匹配范围

Delphi 正则表达式语法(3): 匹配范围 // [A-Z]: 匹配所有大写字母 var reg: TPerlRegEx; begin reg := TPerlRegEx.Create(nil); reg.Subject := 'CodeGear Delphi 2007 for Win32'; reg.RegEx := '[A-Z]'; reg.Replacement := '◆'; reg.ReplaceAll; ShowMessage(reg.Subject

Delphi 正则表达式语法(7): 匹配转义字符

Delphi 正则表达式语法(7): 匹配转义字符 // ? 号的意义是匹配 0-1 次, 如果需要匹配 ? 怎么办 var reg: TPerlRegEx; begin reg := TPerlRegEx.Create(nil); reg.Subject := '你好吗? 还行!'; reg.RegEx := '\?|!'; // 加转义用的 \ reg.Replacement := '◆'; reg.ReplaceAll; ShowMessage(reg.Sub

正则表达式的全局匹配模式

首先,要明确一点,所有的正则表达式都有一个lastIndex属性,用于记录上一次匹配结束的位置.如果不是全局匹配模式,那lastIndex的值始终为0,在匹配过一次后,将会停止匹配. 正则表达式的全局匹配模式,就是在创建正则表达式的时候使用g标识符或者将global属性设置为true,在全局匹配模式下,正则表达式会对指定要查找的字符串执行多次匹配.每次匹配使用当前正则对象的lastIndex属性的值作为在目标字符串中开始查找的起始位置.如果找不到匹配的项lastIndex的值会被重新设置为0.

关于正则表达式的递归匹配问题

经常会有这样的需求,要求匹配出成对的小括号里的内容, 而一般正则表达式中的 ?R 的语法似乎在C#中不被支持, 在一番努力之下,终于找到以下一段描述 /( 应该是 \( 不是用 /转义而是用 \来转义匹配嵌套的构造微软公司已经包含了一个有趣的创新来匹配稳定的构造(历史上,这是正则表达式所做不到的).这并不容易掌握 — 尽管这节较短,但是注意,它非常的晦涩难懂. 从一个例子开始可能更简单一些,所以我用这段代码作为开始: Regex r = new Regex(@"/((?>[^()]+

C#正则表达式的递归匹配分析

在C#程序设计中经常会遇到这样的需求,要求匹配出成对的小括号里的内容,但是一般正则表达式中的 ?R 的语法似乎在C#中不被支持, 经过一番查找与测试,终于找到以下一段描述 /( 应该是 \( 不是用 /转义而是用 \来转义匹配嵌套的构造微软公司已经包含了一个有趣的创新来匹配稳定的构造(历史上,这是正则表达式所做不到的).这并不容易掌握 ― 尽管这节较短,但是注意,它非常的晦涩难懂. 从一个例子开始可能更简单一些,所以我用这段代码作为开始: Regex r = new Regex(@"/((

JS正则表达式的分组匹配

什么是分组通俗来说,我理解的分组就是在正则表达式中用()包起来的内容代表了一个分组,像这样的: var reg = /(\d{2})/ reg.test('12'); //true 这里reg中的(/d{2})就表示一个分组,匹配两位数字分组内容的的形式一个分组中可以像上面这样有一个具体的表达式,这样可以优雅地表达一个重复的字符串 /hahaha/ /(ha){3}/ 这两个表达式是等效的,但有了分组之后可以更急简洁. 体格分组中还可以有多个候选表达式,例如 var reg = /I co

.net使用正则表达式校验、匹配字符工具类

开发程序离不开数据的校验,这里整理了一些数据的校验.匹配的方法: 1 /// <summary> 2 /// 字符(串)验证.匹配工具类 3 /// </summary> 4 public class ValidatorTools 5 { 6 #region 匹配方法 7 /// <summary> 8 /// 验证字符串是否匹配正则表达式描述的规则 9 /// </summary> 10 /// <param name="inputStr&

猜你喜欢

FFmpeg总结（十一）用ffmpeg进行转格式，Android下播放网络音频流

思路: 1.mp3转成pcm(音频数据),ffmpeg做的事 2.OpenSL ES引擎创建AudioPlayer,实际调用了AudioTrack 遇到的错误: Error #include nest ...

实习第十二天

即使是最平淡的一天,也要给自己一个交代早上班车依旧来的很迟,到了公司已经到十点钟,然而并不能打卡,机器重启了几次才算正常,开始进入工作状态后,已经到了十一点,想想昨天描述的Pthread多线程共享变 ...

数据结构—再回首01

1.数据结构是相互之间存在一种或多种特定关系的数据元素的集合. 逻辑结构:集合结构,线性结构,树形结构,图形机构物理结构:顺序存储结构,链接存储结构 2.算法算法是解决特定问题求解步骤的描述,在 ...

MySql之主从复制及读写分离

前言使用MySQL Proxy和MySQL Replication实现读写分离 MySQL Replication可以将master的数据复制分布到多个slave上,然后可以利用slave来分担ma ...

Linux系统启动流程简析

在日常生活中,我们开机的操作一般为按下电源键,等待系统自己起来就好了.这开机的过程看似简单,但其中却包含着十分复杂的各种小过程.以Linux为例,其流程为下图所示: 一.POST 首先,先介绍下BIO ...

【学习笔记】java面向对象程序设计3

一. 对象块代码如下: 1 public class TestObject { 2 int i; 3 int j; 4 { 5 System.out.println("对象块执行....& ...

Java:使用HttpClient进行POST和GET请求以及文件下载

1.HttpClient 大家可以先看一下HttpClient的介绍,这篇博文写的还算不错:http://blog.csdn.net/wangpeng047/article/details/19624 ...

MySQL 备份恢复

1:备份常用工具: mysqldump, xtrabackup mysqldump: 原生数据导出工具,以sql的形式导出保存 xtrabackup: percona团队提供的备份工具,基于文件系统的 ...

帝国CMS弹出登录窗口实现方法

帝国CMS弹出登录窗口实现方法看到好多网站都用弹出登陆窗口让用户登陆注册,其实就是用JS调用一个DIV层实现的今天我用帝国CMS具体讲一下怎么实现这个效果: 一.打开帝国CMS后台-公共模板-JS ...

Workflow笔记2——状态机工作流（转）

出处:http://www.cnblogs.com/jiekzou/p/6192813.html 在上一节Workflow笔记1——工作流介绍中,介绍的是流程图工作流,后来微软又推出了状态机工作流,它 ...

Visio 2013试用

最近公司办公室搬迁,需要勾画一个简单的办公室布局图,所以就下载了Visio 2013试用了一下. 新版的Visio还是挺方便的,有很多模板.我要创建办公室布局图,选择了"办公室布局" ...

centos 关闭触摸板,触摸板点击

yum install xorg-x11-apps xinput –list 由图可以看出俺的本本触摸板ID为14,于是可以通过以下命令开启与关闭它: 禁止touchpad:xinput set-in ...

最近在学习akka,在看rpc相关的东西,有点脑子疼,哈哈 1.需求: 目前大多数分布式架构底层通信是通过RPC实现的,RPC框架非常多, 比如我们学过的Hadoop项目的RPC通信框架,但是Hado ...

oracle expdp和impdp常用命令选项

一.expdp导出数据库 1.按用户导出 expdp scott/tiger@orcl DIRECTORY=oracle_dmp dumpfile=bak.dmp schemas=scott vers ...

插板法（排列组合）

插板法的条件 (1)每个元素都是相同的 (2)分成的组,每组的元素不为空就比如下面这个例子,分出来的组的元素是不为空的将10个相同的球放到3个不同的篮子里面去,每个篮子至少一个,问有多少种放法 0 ...

09:向量点积计算

总时间限制: 1000ms 内存限制: 65536kB 描述在线性代数.计算几何中,向量点积是一种十分重要的运算. 给定两个n维向量a=(a1,a2,...,an)和b=(b1,b2,...,b ...

mysql 创建定时器

mysql 创建定时器 mysql定时器是系统给提供了event,而oracle里面的定时器是系统给提供的job. 废话少说,下面创建表: create table mytable ( id int ...

Yii2框架安装(windows)

-->安装PHP环境Wamp集成环境,XAMMP等.-->安装Composerhttp://pan.baidu.com/s/1i3fejjvPS:安装过程中的有一个手动操作项选择php.e ...

关于cocos2dx-lua版本中游戏时间显示问题

时间显示问题说白了就是时差问题(下面代码片断是以lua脚本写的). 一般来说,游戏中时间是以游戏服务器时间为准.游戏登录时,会从服务器接收一个时间,普遍方案是接收一个时间戳,然后客户端自己维护这个时间 ...

居中元素

如何垂直居中一个浮动元素? // 方法一:已知元素的高宽#div1{ width:200px; height:200px; position: absolute; / ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.