正则表达式和文本挖掘(Text Mining)

在进行文本挖掘时,TSQL中的通配符(Wildchar)显得功能不足,这时,使用“CLR+正则表达式”是非常不错的选择,正则表达式看似非常复杂,但,万变不离其宗,熟练掌握正则表达式的元数据,就能熟练和灵活使用正则表达式完成复杂的Text Mining工作。

一,正则表达式的特殊字符

1,常用元字符

用以匹配特定的字符(字母,数字,符号),注意字母是区分大小写的:

  • . :匹配除换行符以外的任意字符
  • \w :匹配字母或数字或下划线或汉字
  • \s :匹配任意的空白符
  • \d :匹配数字
  • \b :匹配单词的开始或结束
  • ^ :匹配字符串的开始
  • $ :匹配字符串的结束
  • \k :引用分组名,例如:\k<group_name>,表示引用名字为group_name的分组
  • \group_number:group_number是分组的组号,1,2,3等,表示通过组号引用分组

2,重复字符或分组

指定前面一个字符或分组重复的次数:

  • * :重复零次或更多次
  • + :重复一次或更多次
  • ? :重复零次或一次
  • {n} :重复n次
  • {n,} :重复n次或更多次
  • {n,m} :重复n到m次

3,分组,转义,分支,限定符

这些字符有特定的含义和用途:

  • () : 用小括号表示一个分组
  • <>: 定义分组名< 和 > 之间的字符串是分组名
  • \ : 转义字符,将特殊字符转移为普通字符,例如:\(,表示小括号“(”,小括号不再作为特殊字符
  • | : 分支,表达式之间是“或”的关系
  • [] : 指定限定字符列表,一个字符必须匹配列表中任意一个字符,在中括号中指定匹配的字符列表,例如:[aeiou] 一个字符必须aeiou中的任意一个;
  • [^ ] : 指定排除字符列表,一个字符不能是排除列表中的任意一个字符,中括号中指定排除的字符列表,例如:[^aeiou] 一个字符不能是aeiou中的任意一个;

二,分组引用

分组,是使用小括号指定的一个子表达式;分组引用,是指在表达式中,重复使用子表达式,使正则表达式的写法更简洁。默认情况下,正则表达式为每个分组自动分配一个组号,规则是:组号从1开始,从左向右,组号依次加1(base-1),例如,第一个分组的组号为1,第二个分组的组号为2,以此类推。

分组定义的三种形式:

  • (exp) :自动分配组号,通过分组号引用该分组;
  • (?<name>exp) :命名分组,通过分组名引用该分组;
  • (?:exp) :该分组只在当前位置匹配文本,在该分组之后,无法引用该分组,该分组没有分组名,也没有分组号;

1,通过组号引用分组

在正则表达式前面定义一个分组(exp),在表达式的后面,能够通过组号引用该分组的表达式,引用分组的语法是:\group_number;

例如:\b(\w+)\b\s+\1\b,在该正则表达式中,只存在一个分组(\w+),组号是1,在该分组的后面,使用\1来引用该分组,将\1替换为分组的子表达式,等价于:\b(\w+)\b\s+(\w+)\b

2,通过分组名引用分组

在正则表达式中,能够对分组命名,命名的分组格式:(?<name>exp),分组名是name,通过name来引用该分组的格式是:\k<group_name>,通过分组名和组号引用分组,其文本匹配的行为是一样的。

例如:\b(?<word>\w+)\b\s+\1\b,在该分组的后面中,使用\k<word>引用该分组,将\k<word>替换为分组的子表达式,等价于:\b(\w+)\b\s+(\w+)\b

3,无法引用的分组

(?:exp):使用这种语法定义的分组,不能引用,只能在当前的位置匹配文本,正则表达式不为该分组自动分配组号。

三,断言查找

断言是一个逻辑表达式,只有当表达式为真时,匹配成功。当匹配成功时,返回文本,返回的文本不包含前缀或后缀,即,断言用于查找在特定“文本”之前或之后的文本。断言的四种语法:

  • (?=exp):文本的后面匹配表达式exp,返回exp位置之前的表达式
  • (?<=exp) :文本的前面匹配表达式exp,返回exp位置之后的表达式
  • (?!exp):文本的后缀不是exp,返回后缀不是exp的表达式
  • (?<!exp):文本的前缀不是exp,返回前缀不是exp的表达式

1,后缀匹配

(?=exp):文本的后面匹配表达式exp,返回exp位置之前的表达式。后缀匹配,和TSQL的 "%ing"类似;

比如正则表达式:\b\w+(?=ing\b)

分析:断言其后缀是ing,并且是单词的结尾(\b),匹配以ing结尾的单词,但返回单词的前面部分,ing之前的部分;

例如,查找“I‘m reading a book”,它会匹配“reading”,因为该字符后面以ing结尾,该正则表达式返回read,断言返回的文本不包含后缀。

2,前缀匹配

(?<=exp):文本的前面匹配表达式exp,返回exp位置之后的表达式。前缀匹配,和TSQL的 "re%"类似;
比如正则表达式:(?<=\bre)\w+\b

分析:单词的打头(\b),并且单词的前缀是re,匹配以re开头的单词,返回单词的后半部分,re之后的部分;

例如,查找“I am reading a book”,它会匹配“reading”,因为该字符前面以re打头,该正则表达式返回ading,断言返回的文本不包含前缀。

3,查找前缀或后缀不是特定文本的文本

这两个断言查找,跟前面两个相反,作用不大,简单了解一下:

  • (?!exp) :文本的后缀不是exp,返回后缀不是exp的表达式
  • (?<!exp) :文本的前缀不是exp,返回前缀不是exp的表达式

3.1 比如,正则表达式:\b\w+(?!ing\b)

分析:不匹配以ing结尾的单词,查找“I am reading a book”,返回的文本:I,am,a,book

3.2 比如,正则表达式:(?<!\bre)\w+\b

分析:不匹配以re打头的单词,查找“I am reading a book”,返回的文本:I,am,a,book

时间: 2024-10-11 04:51:58

正则表达式和文本挖掘(Text Mining)的相关文章

网络挖掘技术——text mining

一.中文分词:分词就是利用计算机识别出文本中词汇的过程. 1.典型应用:汉字处理:拼音输入法.手写识别.简繁转换 :信息检索:Google .Baidu :内容分析:机器翻译.广告推荐.内容监控 :语音处理:语音识别.语音合成 . 2.分词难点:歧义.新词等. 3.分词技术:机械分词(查词典FMM/BMM,全切分).统计分词(生成式/判别式).理解分词. a)生成式分词:建立学习样本的生成模型,再利用模型对预测结果进行间接推理.两个假设:马尔科夫性(第i个词只依赖于前面的i-1个词):输出独立性

(Deep) Neural Networks (Deep Learning) , NLP and Text Mining

最近翻了一下关于Deep Learning 或者 普通的Neural Network在NLP以及Text Mining方面应用的文章,包括Word2Vec等,然后将key idea提取出来罗列在了一起,有兴趣的可以下载看看: http://pan.baidu.com/s/1sjNQEfz 我没有把一些我自己的想法放到里面,大家各抒己见,多多交流. 下面简单概括一些其中的几篇paper: Bengio, Yoshua, RéjeanDucharme, Pascal Vincent, and Chr

Text Mining Twitter Data in R

Project 1 (20 Points Total)Text Mining Twitter Data in R (using “tidytext”) This is a two-week project spanning Weeks 2 and 3.All parts are due at the end of Week 3. PurposeIn this project you will use twitter data with the tidytext package in R to e

5.9-3 用正则表达式判断字符串text是否为合法的手机号

1 package zfc; 2 3 public class Zfc { 4 5 public static void main(String[] args) 6 { 7 //判断手机号格式是否合法 8 String text = "15851678259"; 9 String bj = "1{1}\\d{10}"; 10 if(text.matches(bj)) 11 { 12 System.out.println("手机号合法"); 13

Unsupervised Learning and Text Mining of Emotion Terms Using R

Unsupervised learning refers to data science approaches that involve learning without a prior knowledge about the classification of sample data. In Wikipedia, unsupervised learning has been described as "the task of inferring a function to describe h

从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用.无论是银行.保险.电信等服务行业的业务分析人员在进行数据库营销.欺诈风险侦测,还是半导体.电子.化工.医药.钢铁等制造行业的研发技术人员在进行新产品实验设计与分析.流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析. 回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制.但是,稍微对回归模型

中文文本分类

本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫. 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程.其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的.可理解的.最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考. 简言之,文本挖掘就是从非结构化的文本中寻找知识的过程. 文本挖掘的七个主要领域: (1)搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关

文本分类(初步)

一 .  文本聚类介绍 文本聚类是文本挖掘(Text Mining)的重要手段和方法,也是数据挖掘的一个重要分支.文本聚类是一种无监督的文档分类,它把一个文本集分成若干称为簇(Cluster) 的子集,每个簇的文本之间具有较大的相似性,而簇间的文本具有较小的相似性. 二 . 文本聚类过程 文本聚类的过程一般包括以下几个过程: 1.文本预处理(分词和停用词).模式表示:包括特征抽取及选择,把数据对象表示成适合于算法的可计算形式.(关键) 2.定义模式之间的距离测量公式. 3.聚类算法实现. 4.评

重磅︱文本挖掘深度学习之word2vec的R语言实现

笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼"深度学习在自然语言领域开始发力 了". 基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义:但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序. 如果想要了解word2vec的实现原理,应该读一读官网后面的三篇参考文献.显然,最主要的应该是这篇: Distributed