[CommandDetail] text-processing

wc命令:

wc [OPTION]... [FILE]...

-l: lines

-w: words

-c: characters

cut命令:

cut [OPTION]... [FILE]...

-d DELIMITER: 指明分隔符

-f FILEDS:

#: 第#个字段

#,#[,#]:离散的多个字段,例如1,3,6

#-#:连续的多个字段, 例如1-6

混合使用:1-3,7

--output-delimiter=STRING

sort命令:

sort [OPTION]... [FILE]...

-f: 忽略字符大小写

-r: 逆序

-t DELIMITER: 字段分隔符

-k #:以指定字段为标准排序

-n: 以数值大小进行排序

-u: uniq,排序后去重

uniq命令:

uniq [OPTION]... [FILE]...

-c: 显示每行重复出现的次数;

-d: 仅显示重复过的行;

-u: 仅显示不曾重复的行;

Note: 连续且完全相同方为重复

时间: 2024-10-08 13:43:11

[CommandDetail] text-processing的相关文章

斯坦福大学自然语言处理第二课“文本处理基础(Basic Text Processing)”

文本处理基础 1.正则表达式(Regular Expressions) 正则表达式是重要的文本预处理工具. 以下截取了部分正则写法: 2.分词(Word tokenization) 我们在进行每一次文本处理时都要对文本进行统一标准化(text normalization)处理. 文本规模 How many words? 我们引入变量Type和Token 分别代表词典中的元素(an element of the vocabulary)和这个元素在文中的出现(an instance of that

Lecture 8 : Text Processing Tools (文本处理工具)

use tools for extracting ,analyzing and manipulating text data 使用提取.分析和处理文本数据的工具 全文阅读 cat:直接抓取文件,一次性输出 less:分屏工具 (上下键,pageup pagedown,:搜索关键字,退出q) man帮助使用的而是less more:只能向下分屏显示 指定位置 head :默认显示前10行   nl 给输出的信息添加行号 head -n 11 /etc/passwd tail:默认显示文件的最后10

How To Use the AWK language to Manipulate Text in Linux

https://www.digitalocean.com/community/tutorials/how-to-use-the-awk-language-to-manipulate-text-in-linux Introduction Linux utilities often follow the Unix philosophy of design. Tools are encouraged to be small, use plain text files for input and out

智能指针tr1::shared_ptr、boost::shared_ptr使用

对于tr1::shared_ptr在安装vs同时会自带安装,但是版本较低的不存在.而boost作为tr1的实现品,包含 "Algorithms Broken Compiler Workarounds Concurrent Programming Containers Correctness and Testing Data Structures Domain Specific Function Objects and Higher-order Programming Generic Progra

Python著名的lib和开发框架(均为转载)

第一,https://github.com/vinta/awesome-python Awesome Python A curated list of awesome Python frameworks, libraries, software and resources. Inspired by awesome-php. Awesome Python Admin Panels Algorithms and Design Patterns Anti-spam Asset Management A

分布式系统(Distributed System)资料

这个资料关于分布式系统资料,作者写的太好了.拿过来以备用 网址:https://github.com/ty4z2008/Qix/blob/master/ds.md 希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多. <Reconfigurable Distributed Storage for Dynamic Networks> 介绍:这是一篇介绍在动态网络里面实现分布式系统重构的paper.论文的作者(导师)是MIT

Python框架、库以及软件资源汇总

转自:http://developer.51cto.com/art/201507/483510.htm 很多来自世界各地的程序员不求回报的写代码为别人造轮子.贡献代码.开发框架.开放源代码使得分散在世界各地的程序员们都能够贡献他们的代码与创新. Python就是这样一门受到全世界各地开源社区支持的语言.Python可以用来开发各种小工具软件.web应用.科学计算.数据分析等等,Python拥有大量的流行框架,比如Django.使用Python框架时,可以根据自己的需求插入不同的模块,比如可以用S

IOS要用到的东西

code4app.com 这网站不错,收集各种 iOS App 开发可以用到的代码示例 cocoacontrols.com/ 英文版本的lib收集 objclibs.com/ 精品lib的收集网站 http://www.ityran.com/forum-61-1.html 泰然代码仓库 ---------------------- emoji ---------------------- http://www.easyapns.com/category/just-for-fun http://w

从事分布式系统,计算,hadoop

作者:廖君链接:https://www.zhihu.com/question/19868791/answer/88873783来源:知乎 分布式系统(Distributed System)资料 <Reconfigurable Distributed Storage for Dynamic Networks> 介绍:这是一篇介绍在动态网络里面实现分布式系统重构的paper.论文的作者(导师)是MIT读博的时候是做分布式系统的研究的,现在在NUS带学生,不仅仅是分布式系统,还有无线网络.如果感兴趣

SOME USEFUL MACHINE LEARNING LIBRARIES.

from: http://www.erogol.com/broad-view-machine-learning-libraries/ http://www.slideshare.net/VincenzoLomonaco/deep-learning-libraries-and-rst-experiments-with-theano FEBRUARY 6, 2014 EREN 1 COMMENT Especially, with the advent of many different and in