1.9简单的文本处理(学习过程)

简单的文本处理

实验介绍

这一节我们将介绍这几个命令tr(注意不是tar),coljoinpaste。实际这一节是上一节关于能实现管道操作的命令的延续,所以我们依然将结合管道来熟悉这些命令的使用。

一、常用的文本处理命令

二、文本处理命令

1.tr 命令

tr 命令可以用来删除一段文本信息中的某些文字。或者将其进行转换。

使用方式:

tr [option]...SET1 [SET2]

常用的选项有:

选项 说明
-d 删除和set1匹配的字符,注意不是全词匹配也不是按字符顺序匹配
-s 去除set1指定的在输入文本中连续并重复的字符

操作举例:

# 删除 "hello shiyanlou" 中所有的‘o‘,‘l‘,‘h‘
$ echo ‘hello shiyanlou‘ | tr -d ‘olh‘
# 将"hello" 中的ll,去重为一个l
$ echo ‘hello‘ | tr -s ‘l‘
# 将输入文本,全部转换为大写或小写输出
$ cat /etc/passwd | tr ‘[:lower:]‘ ‘[:upper:]‘
# 上面的‘[:lower:]‘ ‘[:upper:]‘你也可以简单的写作‘[a-z]‘ ‘[A-Z]‘,当然反过来将大写变小写也是可以的

更多 tr 的使用,你可以使用--help或者man tr获得。

2.col 命令

col 命令可以将Tab换成对等数量的空格建,或反转这个操作。

使用方式:

col [option]

常用的选项有:

选项 说明
-x Tab转换为空格
-h 将空格转换为Tab(默认选项)

操作举例:

# 查看 /etc/protocols 中的不可见字符,可以看到很多 ^I ,这其实就是 Tab 转义成可见字符的符号
$ cat -A /etc/protocols
# 使用 col -x 将 /etc/protocols 中的 Tab 转换为空格,然后再使用 cat 查看,你发现 ^I 不见了
$ cat /etc/protocols | col -x | cat -A

3.join命令

学过数据库的用户对这个应该不会陌生,这个命令就是用于将两个文件中包含相同内容的那一行合并在一起。

使用方式:

join [option]... file1 file2

常用的选项有:

选项 说明
-t 指定分隔符,默认为空格
-i 忽略大小写的差异
-1 指明第一个文件要用哪个字段来对比,,默认对比第一个字段
-2 指明第二个文件要用哪个字段来对比,,默认对比第一个字段

操作举例:

# 创建两个文件
$ echo ‘1 hello‘ > file1
$ echo ‘1 shiyanlou‘ > file2
$ join file1 file2
# 将/etc/passwd与/etc/shadow两个文件合并,指定以‘:‘作为分隔符
$ sudo join -t‘:‘ /etc/passwd /etc/shadow
# 将/etc/passwd与/etc/group两个文件合并,指定以‘:‘作为分隔符, 分别比对第4和第3个字段
$ sudo join -t‘:‘ -1 4 /etc/passwd -2 3 /etc/group

4.paste命令

paste这个命令与join 命令类似,它是在不对比数据的情况下,简单地将多个文件合并一起,以Tab隔开。

使用方式:

paste [option] file...

常用的选项有:

选项 说明
-d 指定合并的分隔符,默认为Tab
-s 不合并到一行,每个文件为一行

操作举例:

$ echo hello > file1
$ echo shiyanlou > file2
$ echo www.shiyanlou.com > file3
$ paste -d ‘:‘ file1 file2 file3
$ paste -s file1 file2 file3

三、小结

上面这些命令不是所有你都会经常用到,不过它们确是很实用的,熟练掌握之后,可以减轻很多工作量,比如不停的用鼠标操作在 gedit 里面复制粘贴赋值粘贴,将两个文件的内容合并为一个文件,这原本只需要一个命令就能完成。

作业

1、在《文件打包与解压缩》一节实验中提到 Windows/dos 与 Linux/UNIX 文本文件一些特殊字符不一致,如断行符 Windows 为 CR+LF(\r\n),Linux/UNIX 为 LF(\n)。使用cat -A 文本 可以看到文本中包含的不可见特殊字符。Linux 的\n表现出来就是一个$,而 Windows/dos 的表现为^M$,可以直接使用dos2unixunix2dos工具在两种格式之间进行转换,使用file命令可以查看文件的具体类型。不过现在希望你在不使用上述两个转换工具的情况下,使用前面学过的命令手动完成 dos 文本格式到 UNIX 文本格式的转换。

2、还记得小时候在小霸王上面玩的小蜜蜂游戏么?它的正统名字应该是Space Invaders:太空侵略者

使用下面这个命令可以安装,之所以叫 ninvaders 是因为这款游戏是基于 ncurses 命令行图形库做的:

sudo apt-get install ninvaders

时间: 2024-10-22 13:27:12

1.9简单的文本处理(学习过程)的相关文章

R语言:用简单的文本处理方法优化我们的读书体验

前言 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包 这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法 不在博客园上阅读时才会看到的,这篇博文归 http://www.cnblogs.com/weibaar所有 仅保证在博客园博客上的排版干净利索

简单的文本框输入自动提示

简单的文本框输入自动提示--输入的时候可以直接异步加载数据库中匹配的项,然后显示出来. 这里没有使用到数据库,直接在PHP用数组模拟数据存储.  demo演示 原理主要是: 监听输入框的状态,当有改变的时候即刻通过ajax发送数据并取得返回值. 主要使用了jQuery封装很方便,但貌似我这个兼容性不咋地...主要提供个思路吧~ js部分: <script type="text/javascript" src="./js/jquery.min.js">&l

一个简单的文本聚类实现(python)

具体实现如下,使用python+结巴分词+scikit-learn实现一个简单的文本聚类得到会议室数据,直接从DBA线上数据库得到预约数据,如下所示,共有3列,分别是会议ID,会议标题和会议时间 因为是中文,因此要进行分词,使用结巴分词对会议标题进行分词并过滤停用词分词代码如下(jiebafenci.py) #encoding=utf-8 import sys import re import codecs import os import shutil import jieba import

《人民的名义》---简单的文本分析

我们都知道进行自然语言处理的第一步就是分词,下面使用jieba模块对最近比较热的电视剧<人民的名义>进行分词,并对它进行一些简单的文本分析. 一.jieba模块中常用的方法说明(github): 1.分词: jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串:是否使用 HMM 模型.该方法适合用于搜索引擎构建倒排索引的分

【Qt5开发及实例】12、实现一个简单的文本编辑器1

showwidget.h /** * 书本:[Qt5开发及实例] * 功能:实现一个简单的文本编辑器 * 文件:showwidget.h * 时间:2015年1月18日10:03:21 * 作者:cutter_point */ #ifndef SHOWWIDGET_H #define SHOWWIDGET_H #include <QWidget> #include <QLabel> #include <QTextEdit> #include <QImage>

简单的文本处理

简单的文本处理 实验介绍 这一节我们将介绍这几个命令tr(注意不是tar),col,join,paste.实际这一节是上一节关于能实现管道操作的命令的延续,所以我们依然将结合管道来熟悉这些命令的使用. 一.常用的文本处理命令 二.文本处理命令 1.tr 命令 tr 命令可以用来删除一段文本信息中的某些文字.或者将其进行转换. 使用方式: tr [option]...SET1 [SET2] 常用的选项有: 选项 说明 -d 删除和set1匹配的字符,注意不是全词匹配也不是按字符顺序匹配 -s 去除

简单的文本编辑器

#!/usr/bin/env python import wx class MainWindow(wx.Frame): def __init__(self, parent, title): wx.Frame.__init__(self, parent, title=title, size=(200,100)) self.control = wx.TextCtrl(self, style=wx.TE_MULTILINE) self.CreateStatusBar() # A Statusbar i

一个简单的文本编译器

花了几天,从没有思路到写完.因为是第一次写这种命令交互式的,所以bug会很多. 格式:E/e:指定要编辑的文件 Q/q:结束编辑 R/r(用r命令后继的k行正文代替原始正文中的m行到n行) R  k m n k行正文 I/i(将i命令后继的k行正文插入到原始正文第m行之后) I k m k行正文 D/d(将原始正文中的第m行到第n行的正文内容删除) D m n 这是我写的代码: 1 /* 实现简单的文本编辑器 */ 2 /* bug1:先按e,再按文件名,循环后ch还是等于'\n' */ 3 /

【Qt5开发及实例】16、实现一个简单的文本编辑器(over)

实现一个简单的文本编辑器 其他具体的代码基础看前面:http://blog.csdn.net/cutter_point/article/details/42839071 1.功能 这个程序又添加了文本编辑功能,什么加粗,斜体,下划线,字体设置,字号设置,文字排版,段落对齐功能. 2.代码全展示 头文件 showwidget.h /** * 书本:[Qt5开发及实例] * 功能:实现一个简单的文本编辑器 * 文件:showwidget.h * 时间:2015年1月18日10:03:21 * 作者: