Linux Shell编程实战---解析文本中的邮件地址和url

解析文本中的邮件地址和url

(1)、使用场景

从给定的文件中解析出所需要的文本是从事文本处理时常见的一项任务。诸如电子邮件地址、URL等都能够借助适合的正则表达式找出来。我们通常需要从一个包含大量无关字符及单词的电子邮件客户列表或HTML网页中将电子邮件地址解析并提取出来。


(2)、正则匹配

匹配一个电子邮件地址的正则表达式如下:

[A-Za-z0-9._][email protected][A-Za-z0-9.]+\.[a-zA-Z]{2,4}

匹配HTTP URL的正则表达式如下:

http://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,4}


(3)、示例

示例1:匹配电子邮件

[[email protected]_01t]# cat a5.txt

this is aline of text contains,<email> #[email protected] </email> andemail address,

blog"http://www.google.com", [email protected] dfdfdfdddfdf;[email protected]<br/>

<ahref="http://code.google.com"><h1>Heading</h1>

[[email protected]_01t]# cat a5.txt |grep -E -o"[A-Za-z0-9._][email protected][A-Za-z0-9.]+\.[a-zA-Z]{2,4}"

[email protected]

[email protected]

[email protected]

[[email protected]_01t]#

 

示例2:匹配URL

[[email protected]_01t]# cat a5.txt

this is aline of text contains,<email> #[email protected] </email> andemail address,

blog"http://www.google.com", [email protected];[email protected]<br />

<ahref="http://code.google.com"><h1>Heading</h1>

[[email protected]_01t]# cat a5.txt |grep -E -o"http://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,4}"

http://www.google.com

http://code.google.com

[[email protected]_01t]#

时间: 2024-11-18 07:42:41

Linux Shell编程实战---解析文本中的邮件地址和url的相关文章

Linux Shell 编程实战技巧

目前,越来越多的企业应用会部署在 Linux 系统上的,而 Linux Shell 脚本可以极大地帮助我们完成这些应用的运维任务.这使得 Linux Shell 开发技能成为开发人员的一项重要的.有竞争力的技能.本文就笔者的实际开发经验,以 Korn Shell 为例分享了脚本开发中的常见问题及相关技巧. 避免定时任务脚本的常见问题 很多脚本在实际使用的时候往往是以定时任务的方式运行,而非手工运行.但是实现同样功能的脚本在这两种运行方式下可能遇到的问题不尽相同. 以定时任务方式运行的脚本往往会遇

Linux Shell编程实战---Shell中的文本切片技术

Shell中的文本切片技术 在shell中竟然也是有字符串切片这个东西存在的,一直在python中运用切片,下面记录一下shell中切片的用法. (1).替换变量内容中的部分文本 $var="This is a line of text" $ echo${var/line/REPLACED} This is aREPLACED of text" line被替换成REPLACED. (2).指定字符串的起始位置和长度来生成子串 语法如下: ${variable_name:sta

Linux Shell编程实战---统计特定文件中单词的词频

方法1:使用sed Shell>cat a1.txt 123a123,555 456.333 566.555!88,thisis a good boy. Shell>cat a1.txt|sed 's/[[:space:]|[:punct:]]/\n/g'|sed '/^$/d'|sort|uniq -c|sort -n-k1 -r 2 555 1 this 1 is 1 good 1 boy 1 a123 1 a 1 88 1 566 1 456 1 333 1 123 Shell>

Linux Shell编程实战---以逆序形式打印行

以逆序形式打印行 使用awk或tac可以搞定. tac这个命令的名称其实就是反过来书写的cat. (1).使用tac 该命令的语法如下: tac file1file2 - 它也可以从stdin中读取: $ seq 5 |tac 5 4 3 2 1 在tac中,\n是默认的行分隔符.但我们也可以用 -s "分隔符"选项指定自己的分隔符. (2).使用awk 使用awk的实现方式如下: $ seq 9 |\ awk '{lifo[NR]=$0 } END{for(lno=NR;lno>

Linux Shell编程实战---计算特定目录下前10个大文件

计算特定目录下前10个大文件 在给定的目录下,想知道有哪些大文件存在,取前十个,按文件大小排行 (1).使用awk来实现 #!/bin/bash path=/root/shell find $path-type f | awk '{ var=$0 "ls -l "var |getline var1 split(var1,a," ") filename=a[9] filesize=a[5] printf("%s %s\n",filename,fil

Linux Shell编程实战---shell实现图片下载神器

$ cat dowonload_image.sh  #!/bin/bash ######################################### #图片下载器                              # #script_name: dowonload_image.sh         # #author:weixiaoxin write by 2017-09-20   #      #########################################

《跟老男孩学Linux运维之shell编程实战》-第二章 shell变量的核心基础

这篇文章主要讲解 shell变量的核心基础. 1.变量是什么? 变量是什么?可能有好多人不明白,简单地说,变量就是用一个固定的字符串(也可能是字符.数字等的组合)代替更多.更复杂的内容,该内容里可能还会包含变量.路径.字符串等其他的内容. 变量的赋值方式为:先写变量名称,紧接着是"="这个字符,最后是值,中间无任何空格(变量的内容一般要加双引号,以防止出错,特别是当值里的内容之间有空格时). 如何打印变量?通过echo命令加上$变量名 打印变量的值: 例如:定义变量和打印变量: [[e

《跟老男孩学Linux运维之shell编程实战》-第五章 shell脚本的条件测试

本文的知识点是关于shell脚本的条件测试的相关内容. 通常在shell脚本中我们需要做各式各样的条件判断,比如,测试一个文件是否存在.是否为文件或目录.是否 具有执行权限等等,所以在shell脚本中,条件判断还是至关重要的.接下来我们进入正题:shell脚本的条件测试. 1.在bash编程中,条件测试常用的语法形式如下表: 提示: 语法1中的test命令和语法2中的[]是等价的.语法3中的[[]]双中括号为扩展的test命令. 语法4中的(())常用于计算. 在双中括号[[]]中可以使用通配符

《跟老男孩学Linux运维之shell编程实战》-第四章 变量的数值计算

本文讲解shell编程中变量的数值计算. 1.常见的算术运算符: 提示: 此处对于我自己来说++.--比较难理解,之前一看到脚本中有这些符号,就看不懂了,所以在此举例说明一下: [[email protected] ~]# a=10                  ==>定义变量a[[email protected] ~]# echo $((a++)) ==>如果a在运算符++或--的前面,那么输出整个表达式时,会输出a的值, 此前定义的变量a为10,所以此处的值为10.10[[email