java之endwith()方法以及正则表达式匹配中文

今天写程序的时候遇到判断需要使用多个if(){}else{}语句,观察了一下需要判断的条件,发现判断的条件可以变为对条件最后几个汉字的判断,就想用正则表达式来对汉字判断,写完后,想到可以用Java中String类的endwith()方法来对汉字实现匹配,例如

String str="世界你好我喜欢编程";

if(str.endwith("编程")){

  dosomething();

}else{

  dosomething();

}

以下是endwith()方法的源码:

 public boolean startsWith(String paramString, int paramInt)
  {
    char[] arrayOfChar1 = this.value;
    int i = this.offset + paramInt;
    char[] arrayOfChar2 = paramString.value;
    int j = paramString.offset;
    int k = paramString.count;
    if ((paramInt < 0) || (paramInt > this.count - k))
      return false;
    while (true)
    {
      k--;
      if (k < 0)
        break;
      if (arrayOfChar1[(i++)] != arrayOfChar2[(j++)])
        return false;
    }
    return true;
  }

  public boolean startsWith(String paramString)
  {
    return startsWith(paramString, 0);
  }

  public boolean endsWith(String paramString)
  {
    return startsWith(paramString, this.count - paramString.count);
  }

char类型可以存储一个中文汉字,因为Java中使用的编码是Unicode(不选择任何特定的编码,直接使用字符在字符集中的编号,这是统一的唯一方法),

一个char类型占2个字节byte(16比特bit),所以放一个中文是没问题的。

 1:“字节”是byte,“位”是bit ;

 2: 1 byte = 8 bit ;

char 在Java中是2个字节。java采用unicode,2个字节(16位)来表示一个字符。

java是用unicode来表示字符,中文字符的unicode就是2个字节。

正则表达式匹配中文:

  

package test1;

import java.util.regex.Pattern;

public class patterntest {
    public static void main(String[] args)
    {
        String str = "编程世界你好,我爱编程";
        System.out.println(Pattern.compile("[编][程]").matcher(str).find());
    }

}

在对String进行匹配时没有使用   str.matches("[编][程]"),如果使用则返回的式false。

  在Java API中对matches(String regx) 的返回说明:当且仅当此字符串匹配给定的正则表达式时,返回 true,也就是说,你给定的正则表达式需要与整个字符串匹配才会返回true,而现在的情景相当于在字符串中去查找有没有某个特定的字符串,所以不能使用matches(String regx)方法。

注意:在写匹配规则时,需要将匹配的汉字分别用[]隔开匹配。

原文地址:https://www.cnblogs.com/qinshou/p/8367052.html

时间: 2024-09-29 08:29:05

java之endwith()方法以及正则表达式匹配中文的相关文章

正则表达式匹配中文

/** * 正则表达式匹配中文 */ - (BOOL)isRegexMatching:(NSString *)str; { NSString *regex = @"^[\u4E00-\u9FFF]+$"; return [[NSPredicate predicateWithFormat:@"SELF MATCHES %@", regex] evaluateWithObject:str]; }

【转】正则表达式 匹配中文,英文字母和数字及_的写法!同时控制长度

匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配中文,英文字母和数字及_: ^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10} ^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$ 1.一个正则表达式,只含有汉字.数字.字母.下划线不能以下划线开头和结尾:^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$  其中:^

PHP使用正则表达式匹配中文,有部分匹配不出来的解决办法

今天在开发的时候有个需要,就是匹配出一条计价公式里的材料文本,示例:[羊脂玉价格]*[羊脂玉重量]+[白金价格]*[白金重量]+[皓石价格]*[皓石重量]+[钻石价格]*1.5*[钻石重量]+[硬金价格]*1.67*[硬金重量],要匹配出[***_价格],就是中括号内,以_价格结尾的字符串(代表材料的名称),我用的语言是PHP,写了一条正则表达式出来,代码如下: $pattern = "/\\[([^_价格]+)_价格\\]/"; $res = preg_match_all($patt

sublimetext 使用正则表达式匹配中文

[\x{4e00}-\x{9fa5}] ============================================= 参考资料 1.在javascript下正确的\x4e00-\x9fa5并不完全适合php中文正则表达式:2.匹配中文全角字符的正则:   ^[\x80-\xff]*^/  :3.GB2312.汉字.字母.数字.下划线正则表达式:[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+:4.UTF-8汉字.字母.数

正则表达式 匹配中文,英文字母和数字及_的写法!同时控制长度

匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配中文,英文字母和数字及_: ^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10} ^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$ 1.一个正则表达式,只含有汉字.数字.字母.下划线不能以下划线开头和结尾:^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$  其中:^

正则表达式匹配中文字符及标点

可以写成这样 string strRegex = @"[\u4e00-\u9fa5]|[\(\)\<\>\--\:\,\.\"\"\<\>\!]"; 其中前半部分表示匹配中文字符,后半部分为需要匹配的标点符号. 另, 对于html源码的处理,建议使用HtmlAgilityPack,用下面的代码去掉其中的脚本.样式或者注释内容. public static HtmlDocument InitializeHtmlDoc(string htmlSt

正则表达式 匹配中文

一: package cn.sunzn.demo; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Demo { public static void main(String[] args) { System.out.println(isContainChinese("中国China")); } public static boolean isContainChinese(Stri

hive 正则表达式 匹配中文

例如:要取出收件人 *的 select regexp_extract('收件人为小明的15622150839','收件人为([\\u4E00-\\u9FFF]+)的',1 ) from tmp.t_gg  limit 1;select regexp_extract('收件人为小明的15622150839','收件人为([啊-龥]+)的',0 ) from tmp.t_gg  limit 1; select regexp_extract('收件人为小明的15622150839','收件人为([\\

python正则表达式匹配中文

# -*- coding: utf-8 -*- import re def findPart(regex, text, name): res=re.findall(regex, text) if res: print "There are %d %s parts:\n"% (len(res), name) for r in res: print "\t",r.encode("utf8") print text ="#who#hellow