linux提取指定列字符并打印所有内容(awk)

假设有文件长如下样子:

CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  samplename

1 3552841 . G . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

1 3552842 . T . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

2 3552843 . G . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

2 3552844 . T . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

3 3552845 . G . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

3 3552846 . C . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

4 3552847 . A . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

5 3552848 . C . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

6 3552849 . A . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

7 3552850 . C . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

现提取第一列字符为“3”,并打印出符合第一列为“3”的所有列,同时保存,则可以用以下命令:

awk -F " " ‘{if($1~/^3/) print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10}‘ sample.vcf > samplecol.vcf  #{if($1~/^3/) print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10}‘ 的意思是,在文件sample.vcf中,如果第一列($1)里面有匹配(~)正则表达式(/^3/)的话,那么就输出(print)到标准输出。保存到samplecol.vcf文件中。

输出的文件如下:

3 3552845 . G . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

3 3552846 . C . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:1

时间: 2024-10-13 00:30:27

linux提取指定列字符并打印所有内容(awk)的相关文章

linux提取第一列且删除第一行(awk函数)

如下文件所示,只想提取红框中的内容,即进行提取第一列,且去除第一行的操作 则用到下列命令行: awk 'NR == 1 {next} {print $1}' file.txt > file_col1.txt #NR==1指的是不打印第一行,print $1指的是打印第一列 得到如下图: 原文地址:https://www.cnblogs.com/chenwenyan/p/8568133.html

linux提取指定字符的行列并生成新文件(awk命令)

如图所示,命名为file文件的表头有BP.A1.TEST等 假如想提取含有"ADD"的行和该行对应列的"BP"和"P"值,则需要用到以下命令 awk '/ADD/ {print $1,$7}' file > file_BP_P /ADD/表示搜索含有"ADD"的行,$1表示提取第一列,$7表示提取第七列,file指的是搜索的文件名,">"表示输出,file_BP_P表示输出后保存的文件名

linux shell编程之字符截取命令cut、awk、printf、sed、sort

cut和awk可以提取列,grep提取行 命令名称:cut -f 提取行,-d 分隔符 缺陷:不能使用空格作为分隔符,tab可以,具体分隔符也可以. 命令名称:printf 命令名称:awk 比cut强大的多. sed命令: sort排序:

字串符相关 split() 字串符分隔 substring() 提取字符串 substr()提取指定数目的字符

split() 方法将字符串分割为字符串数组,并返回此数组. stringObject.split(separator,limit) 我们将按照不同的方式来分割字符串: 使用指定符号分割字符串,代码如下: var mystr = "www.imooc.com"; document.write(mystr.split(".")+"<br>"); document.write(mystr.split(".", 2)+&

判断JSON返回的对象中的firstName这一列的值是否包含指定的字符

判断JSON返回的对象中的firstName这一列的值是否包含指定的字符,如果包含指定字符则返回true,否则返回false 标签: <无> 代码片段(1)[全屏查看所有代码] 1. [代码][其他]代码 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

提取指定数目的字符substr()

提取指定数目的字符substr() substr() 方法从字符串中提取从 startPos位置开始的指定数目的字符串. 语法: stringObject.substr(startPos,length) 参数说明: 注意:如果参数startPos是负数,从字符串的尾部开始算起的位置.也就是说,-1 指字符串中最后一个字符,-2 指倒数第二个字符,以此类推. 如果startPos为负数且绝对值大于字符串长度,startPos为0. 使用 substr() 从字符串中提取一些字符,代码如下: <sc

Linux:不同文件相同列字符合并文件(awk函数)

存在file1.txt,其内容如下: H aa 0 0 1 -9 H bb 0 0 2 -9 H cc 0 0 2 -9 存在file2.txt,其内容如下: H aa 0 0 0 -9 asd qwe H bb 0 0 0 -9 fgh rty H cc 0 0 0 -9 jkl uio 现希望根据file1和file2相同的列字符合并文件,要求如下:1.如果两个文件的第二列相同,则将file2的第三列.第四列.第五列.第六列修改为file1对应的第三列.第四列.第五列.第六列内容:2.新文件

shell——按指定列排序

转自http://roclinux.cn/?p=1350 1 sort的工作原理 sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出. [[email protected] programming]$ cat seq.txtbananaapplepearorange[[email protected] programming]$ sort seq.txtapplebananaorangepear 2 sort的-u选项 它的作

linux(39):shell 打印偶数行,奇数行 ,行号

awk 命令: 1. 打印行号和内容: awk '{print NR":"$0}' 2. 输出:偶数行和奇数行到文件 awk '{print $0.txt > NR%2.txt}'  file 3. 打印出奇数行内容:(三者等价) awk 'NR%2==1' file awk 'NR%2' all_file.txt awk 'i=!i' file 打印出偶数行的内容:(三者等价) awk 'NR%2==0' file awk '!(NR%2)' file awk '!(i=!i)