文本处理
Cat命令
1) 拼接文件:纵向拼接,不是横向拼接
[email protected]:~# cat list list2
line2
line3
line4
line5
line5
line6
line7
total 32K
lrwxrwxrwx 1 root root 12 Jan 4 11:30 backup -> /data/backup
-rw-r--r-- 1 root root 46 Apr 1 13:18 list
-rw-r--r-- 1 root root 0 Apr 1 13:29 list2
-rwxr-xr-x 1 root root 84 Apr 1 09:24 test.sh
drwxr-xr-x 4 root root 4.0K Apr 1 13:16test_shell
drwxr-xr-x 2 root root 4.0K Mar 28 09:42 tmp
drwxr-xr-x 6 root root 4.0K Jul 19 2016tools
[email protected]:~# ls -lh | cat - list #这里的-标示标准输入
total 36K
lrwxrwxrwx 1 root root 12 Jan 4 11:30 backup -> /data/backup
-rw-r--r-- 1 root root 46 Apr 1 13:18 list
-rw-r--r-- 1 root root 512 Apr 1 13:29 list2
drwxr-xr-x 10 root root 4.0K Mar 23 2016 root
-r-------- 1 root root 1.7K Mar 31 10:06 solar
drwxr-xr-x 3 root root 4.0K Dec 1 10:07testgit
-rwxr-xr-x 1 root root 84 Apr 1 09:24 test.sh
drwxr-xr-x 4 root root 4.0K Apr 1 13:16test_shell
drwxr-xr-x 2 root root 4.0K Mar 28 09:42 tmp
drwxr-xr-x 6 root root 4.0K Jul 19 2016tools
line2
line3
line4
line5
line5
line6
2) 格式化输出
输出行号
[email protected]:~# cat -n list
1 line2
2 line3
3 line4
4 line5
5 line5
6 line6
压缩空格行
[email protected]:~# cat -s list
line2
line3
line4
line5
line5
line6
line7
paste
按列合并文件:纵向拼接
[email protected]:~# paste employe.txt bonus.txt | awk ‘{print $1,$2,$3,$5}‘ | tr ‘[A-Z]‘ ‘[a-z]‘ |s
ort -s -k2
400 ashok sharma $1,250
100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000
[email protected]:~# cat employe.txt
100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma
[email protected]:~# cat b
cat: b: No such file or directory
[email protected]:~# cat bonus.txt
100 $5,000
200 $500
300 $3,000
400 $1,250
cut
以列形式处理文本行
-d 以什么作为分隔符来分割列
-f 指定要显示哪几个列
排序、去重
Sort
-n 按照数字序列排序
-r 倒序排序
-k 指定以某列
-d 以字典序列排序
tac
会以逆序的方式打印输出
[email protected]:~# cat list
line2 200
line3 100
line4 100
line5 700
line5 800
line6 50
line7 350
[email protected]:~# cat list | tac -
line7 350
line6 50
line5 800
line5 700
line4 100
line3 100
line2 200
Uniq
Uniq会去除重复的行,但仅限于是已经拍过序的输入,或者是已经排过序的文件。
-u 只显示那些是唯一的行
-c 统计重复行出现的次数
-d 找出重复行的内容
tr命令
tr是一个构建一行命令的一个小而美的工具。tr只能接收标准输入作为命令参数。tr可以进行文件的转换、删除、压缩
替换
[email protected]:~# echo "123 abcdefg:aaa:" | tr ":" "<"
123 abcd efg<aaa<
删除
[email protected]:~# echo "123 abcdefg:aaa:" | tr -d ":‘
> ^C
[email protected]:~# echo "123 abcdefg:aaa:" | tr -d ":"
123 abcd efgaaa
-c定义个集合,不再这个集合中的内容全部删除。
[email protected]:~# echo "123 abcdefg:aaa:" | tr -d -c ‘a-z \n‘
abcdefgaaa
[email protected]:~# echo "123 abcdefg:aaa:" | tr ‘a-z‘ ‘A-Z‘
123 ABCD EFG:AAA:
特殊用法,能够通过字符的替换,进行字符的加密.
文本匹配搜索grep
[email protected]:~# grep"hello" test.sh
123aab456 1232 hello
assbbb hello112332 asss
[email protected]:~# grep"hello$" test.sh --color=auto
123aab456 1232 hello
#匹配多个匹配条件
[email protected]:~# grep -e"hello$" -e "asss" --color=auto ./test.sh
123aab456 1232 hello
assbbb hello112332 asss
指定搜索的文件或路径
grep “text” ./ -r –include *.(cpp,c)
Sed
可以替换查找到的字符串为我们指定的新字符创
常规使用: 不修改原本的文件内容
[email protected]:~# sed ‘s/line2/tttt/g‘list
tttt 200
line3 100
line4 100
line5 700
line5 800
line6 50
line7 350
[email protected]:~# cat list
line2 200
line3 100
line4 100
line5 700
line5 800
line6 50
line7 350
带正则表达式匹配& 将已经比配的字符串当成变量使用。
这里的&,就标示着已经被匹配到的字符创,具体哪个字符创算是被匹配到的,就是我们用括号,括起来的部分。
[email protected]:~# cat list
line2 200
line3 100
line4 100
line5 700
line5 800
line6 50
line7 350
[email protected]:~# sed ‘s/\w\+2 \(\w\+\)/[--&--]/g‘ list
[--line2 200--]
line3 100
line4 100
line5 700
line5 800
line6 50
line7 350
如果存在多字()来匹配字符串那么我们可以使用数字标号来表示具体哪个匹配
[email protected]:~# sed ‘s/\(\w\+\)2\(\w\+\)/[--\1--] [\2]/g‘ list
[--line--] [200]
line3 100
line4 100
line5 700
line5 800
line6 50
line7 350
多个sed进行组合,
[email protected]:~# sed ‘s/\(\w\+\)2\(\w\+\)/[--\1--] [\2]/g‘ list | sed ‘s/line7/tttt/g‘
[--line--] [200]
line3 100
line4 100
line5 700
line5 800
line6 50
tttt 350
awk
awk的功能十分强大,这里由于篇幅的原因,我没有列在这里,可以查看之前发过的一个篇文章及评论
http://atong.blog.51cto.com/2393905/1343553
另外有时间的建议去看看awk编程语言这本书,基本上可以跳着看书中列举的示例,200多页的书,但可以非常快的看过去。1小时候内肯定可以看得完。