Java String.replaceAll() 与后向引用(backreference)

问题

昨天看到一篇博文,文中谈到一道 Java 面试题:

给定一字符串,若该字符串中间包含 "*",则删除该 "*";若该字符串首字符或尾字符为 "*",则保留该 "*"。

举几个例子(箭头左边为输入,箭头右边为输出):

* --> *

** --> **

**** --> **

*ab**de** --> *abde*

我觉得应该用正则表达式来处理,但想不出正则表达式该怎么写。

第一种解答

该博文的回复中有人给出下面的答案

str.replaceAll("(^\\*)|(\\*$)|\\*", "$1$2");

上机验证一下,答案是对的,但不懂为什么正则表达式要这么写。到 stackoverflow 上发帖问了一下,才大概明白是怎么回事儿。当时问的时候, 对这个问题想得不清楚,所以问的问题也是糊里糊涂。

下面是我的理解,不对之处请多拍砖:

replaceAll() 是 Java String 类的一个方法:

public String replaceAll(String regex, String replacement)
Replaces each substring of this string that matches the given regular expression with the given replacement.
(特别要注意的是,这个方法的第一个参数是一个正则表达式。我过去在第一个参数上栽过跟头。不过,这回我栽在第二个参数上。)

"(^\\*)|(\\*$)|\\*" 解释:

(^\\*) :capturing group 1, 匹配字符串开始处的 *
(\\*$) :capturing group 2, 匹配字符串结尾处的 *
\\* : 匹配任意位置的 *
  • 因为 "*" 在正则表达式中是特殊字符,所以需要使用转义字符 "\"。但在Java中 "\" 也是特殊字符,所以需要再一次使用 "\",这样就造成 "*" 前面有两个 "\"。
  • 圆括号 "()" 把括号内的内容作为一个 capturing group,为后面的 backreference 做准备。关于 capturing group 请看这里
  • "|" 表明左右的表达式是 "或" 的关系。
  • "\\*" 单独使用的话可以匹配字符串中任意位置的 "*"。但在上述的表达式中,开始和结尾处的 "*" 优先被 "(^\\*)" 或 "(\\*$)" 匹配了。

因此上面的表达式可以匹配字符串开始处的 "*",或者匹配字符串结尾处的 "*",或者匹配字符串任意位置的 "*"。也就是说,字符串中所有的 "*" 都匹配上了。

"$1$2" 解释:

$1 :backreference 第一个 capturing group
$2 :backreference 第二个 capturing group

这个参数中 "$1" 和 "$2" 的内容被用来替换前一个参数中匹配的字符串。

以字符串 "*ab**de**" 为例:

  1. 第一个 "*" 匹配,使用 "$1$2" 来替换。这时 "$1" 的内容为 "*","$2" 的内容为空,所以第一个 "*"  被它自己替换。
  2. 接下来 "a" 和 "b" 都不匹配,略过,继续往后走。
  3. 第二个 "*" 匹配,使用 "$1$2" 来替换。这时 "$1" 的内容为空,"$2" 的内容为空,所以这个 "*" 被替换为空。
  4. 第三个 "*" 跟第二个 "*" 一样,也被替换为空。
  5. 接下来的 "d" 和 "e" 不匹配,继续往后走。
  6. 第四个 "*" 匹配,跟第二个、第三个 "*" 一样,被替换为空。
  7. 最后一个 "*" 匹配,使用 "$1$2" 来替换。这时 "$1" 的内容为空,"$2" 的内容为 "*",所以最后一个 "*" 被它自己替换。
  8. 最后的结果是:"*abde*"

这里有一点要注意:在正则表达式中,backreference 是用 "反斜杠 + 数字" 来表示的,比如:\1, \2 。但是,当 backreference 出现在替换字符串中时,Java 的 backreference 使用 "美元符号 + 数字" 来表示,比如:$1, $2 。据说这是跟 Perl 学的。不嫌累的话看看这个帖子吧。

第二种解答

另外一种使用正则表达式的方法是:如果 "*" 不在头,也不在尾,则替换为空。这种想法很自然,但实现起来却不容易。

String repl = str.replaceAll("(?<!^)\\*+(?!$)", "");

正则表达式解释:

(?<!^)   # 如果前一个位置不是行首
\\*+     # 匹配一个或多个 *
(?!$)    # 如果下一个位置不是行尾

"?<!" 表示 Negative Lookahead,"?!" 表示 Negative Lookbehind 。详细说明请参考这里这里

第三种解答

String repl = str.replaceAll("(^\\*)|(\\*$)|\\*+", "$1$2");

这个跟上面的第二种解答都是由同一个人回复的,但这个解答有点问题:如果结尾处有两个或两个以上的 "*" 时,这些 "*" 都被替换为空。

例如,若输入为 "*ab**de**",则输出为"*abde",最后的那个 "*" 不见了。

这是因为缺省情况下,正则匹配处于 Greediness(贪婪) 匹配模式,会匹配尽量多的字符。"\*+" 可以匹配一个或多个 "*" 。在倒数第二个 "*" 的时候,匹配一个 "*" 或两个 "*" 都可以。但它比较贪婪,所以把最后两个 "*" 都匹配上了,然后被 "$1$2" 替换为空。

把正则匹配改为 Laziness(偷懒)匹配可以解决这个问题。在表达式后面加一个 "?" 就变成 Laziness 匹配了:"\*+?" 。

String repl = str.replaceAll("(^\\*)|(\\*$)|\\*+?", "$1$2");

关于 Greediness 和 Laziness 请看这里

正则表达式效率

该网站可以测试正则表达式,并给出详细的解释。它还给出匹配所需的步数,你可以用这个步数来比较表达式的效率。从这个网站上看,第二种方法效率最高。

参考链接

时间: 2024-10-06 05:22:02

Java String.replaceAll() 与后向引用(backreference)的相关文章

Java String.replaceAll()方法

声明  以下是java.lang.String.replaceAll()方法的声明 public String replaceAll(String regex, String replacement) 参数: regex 正则表达式,replacement 用来替换符合正则表达式的字符符 返回值 此方法返回的结果字符串 异常 PatternSyntaxException -- 如果正则表达式的语法无效. 用例 /** * 使用java正则表达式去掉多余的.与0 (1.0->1,1.010->1

JAVA String replaceAll

import java.util.HashMap;import java.util.Map;import java.util.regex.Matcher;import java.util.regex.Pattern; public class RegexExam { public static void main(String args[]) { HashMap data = new HashMap(); String template = "尊敬的客户${customerName}你好!本次消

JAVA中string.replace()和string.replaceAll()的区别及用法

乍一看,字面上理解好像replace只替换第一个出现的字符(受javascript的影响),replaceall替换所有的字符,其实大不然,只是替换的用途不一样.    public String replace(char oldChar,char newChar)返回一个新的字符串,它是通过用 newChar 替换此字符串中出现的所有 oldChar 而生成的. 如 果 oldChar 在此 String 对象表示的字符序列中没有出现,则返回对此 String 对象的引用.否则,创建一个新的

java.lang.String.replaceAll(String regex, String replacement)使用注意

java.lang.String.replace()方法的参数可以是char类型或者CharSequence类型(String实现了CharSequence接口) java.lang.String.replaceAll(String regex, String replacement)方法的参数是正则表达式和要替换后的字符串,参数regex如果输入例如"+86"或者其他带有特殊字符的字符串则会报错,需要使用特殊符号的时候需要进行转义.

Java String 综述

摘要: Java 中的 String类 是我们日常开发中使用最为频繁的一个类,但要想真正掌握的这个类却不是一件容易的事情.本文从 Java 内存模型展开,结合 JDK 中 String 类的源码进行深入分析,特别就 String类与享元模式,String 常量池,String的不可变性,String对象的创建方式,String 与 克隆的问题,String.StringBuffer 和 StringBuilder 的区别等几个方面对其进行详细阐述.总结,力求还原 String类 的真实全貌. 一

Java String源码解析

String类概要 所有的字符串字面量都属于String类,String对象创建后不可改变,因此可以缓存共享,StringBuilder,StringBuffer是可变的实现 String类提供了操作字符序列中单个字符的方法,比如有比较字符串,搜索字符串等 Java语言提供了对字符串连接运算符的特别支持(+),该符号也可用于将其他类型转换成字符串. 字符串的连接实际上是通过StringBuffer或者StringBuilder的append()方法来实现的 一般情况下,传递一个空参数在这类构造函

Java String类详解

Java字符串类(java.lang.String)是Java中使用最多的类,也是最为特殊的一个类,很多时候,我们对它既熟悉又陌生. 类结构: public final class String extends Object implements Serializable, Comparable<String>, CharSequence 类概述: Java程序中的所有字面值(string literals),即双引号括起的字符串,如"abc",都是作为String类的实例

java String类用法

一.String 首先我们要明确,String并不是基本数据类型,而是一个对象,并且是不可变的对象.查看源码就会发现String类为final型的(当然也不可被继承),而且通过查看JDK文档会发现几乎每一个修改String对象的操作,实际上都是创建了一个全新的String对象. 字符串为对象,那么在初始化之前,它的值为null,到这里就有必要提下"".null.new String()三者的区别.null 表示string还没有new ,也就是说对象的引用还没有创建,也没有分配内存空间

Java String, StringBuffer和StringBuilder实例

1- 分层继承2- 可变和不可变的概念3- String3.1- 字符串是一个非常特殊的类3.2- String 字面值 vs. String对象3.3- String的方法3.3.1- length()3.3.2- concat(String)3.3.3- indexOf(..)3.3.4- substring(..)3.3.5- replace3.3.6- 其它实例4- StringBuffer vs StringBuilder 1- 分层继承 当使用文本数据时,Java提供了三种类别,包括