如何使用shell脚本快速排序和去重文件数据

  前面写过一篇通过shell脚本去重10G数据的文章,见《用几条shell命令快速去重10G数据》。然而今天又碰到另外一个业务,业务复杂度比上次的单纯去重要复杂很多。找了很久没有找到相应的办法,于是用shell脚本程序去处理。具体业务逻辑:

  1、首先根据给定指定进行排序

  2、排序后对给定字段进行去重,去重的规则如下:

    a)排序后如果相邻N行给定字段值相同的行数不超过两行,则两行都保留。

    a)排序后如果相邻N行给定字段值相同的行数超过两行,则保留首行和尾行。

  就这样一个业务逻辑,其实看起来并不是太难。但是问题来了,怎么才能在10~20G的数据中快速地进行处理呢?网上找了很久没找到相应的处理办法,于是先用一种相对笨的办法实现。

  测试数据:

F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss

  shell脚本:

if [ "$#" != "2" ]; then
        echo "Usage: 参数1:文件路径,参数2:文件名。"
        exit
fi
#源文件所在目录
filepath=$1
#源文件绝对路径
orgfile=$filepath"/"$2
#合并字段后的临时文件
#mergerfile="$orgfile"_merge.txt
#排序后的临时文件
sortfile="$orgfile"_sort.txt
#最终结果文件
result_unique="$orgfile"_result_unique.txt
echo "">$result_unique
#echo "文件:$orgfile"
#echo "开始合并字段..."
#awk ‘BEGIN{ FS=",";}{ print $1","$2","$3","$4","$5","$6","$7","$1$3$4 }‘ $orgfile > $mergerfile
#echo "字段合并结束..."

echo "文件排序 start..."
#sort -t $"," -k 1,1 -k 9,9 $mergerfile >$sortfile
sort -t $"," -k 1,1 -k 3,4 $orgfile >$sortfile
echo "文件排序 end..."

printf "***********文件比较 start**************************\n"
echo "while read line <$sortfile"
cnt=0
#首行
firstline=""
#尾行
lastline=""
#上一次比较的key
lastKey=""
#文件行数
linecount=`sed -n ‘$=‘ $sortfile`
i=1
echo "linecount=========>>>>>>>$linecount"
#********************[[ -n "$line" ]] 确保最后一行也能被读取到***************************
while read line || [[ -n "$line" ]];
do
  echo $line;
  #合并需要比较的字段
  compare=`echo "$line"|awk -F ‘,‘ ‘{print $1$3$4}‘`
  echo "compare=====$compare"
  #判断是否为最后一行,且和前一行的key是否相等
  if [ "$i" != "$linecount" -a "$lastKey" = "$compare" ];then
    echo "[ = ]"
    cnt=$(expr $cnt + 1)
    lastline="$line"
  else
    #首次进来
    if [ "$firstline" = "" ];then
        firstline=$line
        cnt=1
        echo "$firstline" >> $result_unique
    fi
    #echo "----$i---------------->>>>>>>>>>>$cnt"
    if [ $cnt -gt 1 -o "$i" == "$linecount" ];then
        echo "----$i---------------->>>>>>>>>>>$cnt"

        if [ "$lastline" != "" ];then
                echo "$lastline" >> $result_unique
        fi

        # 最后一行的特殊处理
        if [ "$i" == "$linecount" ];then
                echo "================last line==================="
                echo "$line" >> $result_unique
        fi

        firstline="$line"
        lastline=""
        cnt=1
    fi
  fi
  # 对比key
  lastKey="$compare"
  let i++
done <$sortfile

echo "*******************文件 $orgfile 处理结束***************************"
echo "*******************结果文件 $result_unique ***************************"
exit

  给脚本添加执行权限:

chmod +x uniquefile.sh

  执行shell脚本

sh ./uniquefile.sh ./文件路径 文件名

  结果:

[[email protected] ~]# sh uniquefile.sh ./ testfile.csv
文件排序 start...
文件排序 end...
***********文件比较 start**************************
while read line <.//testfile.csv_sort.txt
linecount=========>>>>>>>6
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0
[ = ]
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
----3---------------->>>>>>>>>>>2
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
[ = ]
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
[ = ]
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
----6---------------->>>>>>>>>>>3
================last line===================
*******************文件 .//testfile.csv 处理结束***************************
*******************结果文件 .//testfile.csv_result_unique.txt ***************************

  最终结果文件:

[[email protected] ~]# more testfile.csv_result_unique.txt 

A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss

  时间比较赶,先这样实现吧。哪位亲们有好的办法请告诉我。

时间: 2025-01-07 22:04:11

如何使用shell脚本快速排序和去重文件数据的相关文章

linux shell 脚本获取和替换文件中特定内容

1.从一串字符串中获取特定的信息 要求1:获取本机IP:menu.lst为系统镜象的IP配置文件,需要从中获取到本机IP信息(从文件获取信息) 1 timeout 1 2 default 0 3 4 title live 5 find --set-root /casper/vmlinuz 6 kernel /casper/vmlinuz boot=casper ignore_uuid showmounts ip=eth0,10.0.66.66,255.255.240.0,10.0.64.3 7

AIX 用SHELL脚本 自动FTP下载文件

用SHELL脚本 自动FTP下载文件:kaiboss1:/weblogic/bboss> uname -xAIX kaiboss1 3315381580 3 5 00C59CB54C00kaiboss1:/weblogic/bboss> more ./memberupload/memberupload.shcd /weblogic/bboss/memberupload/fileftp -inv 10.1.140.123 <<!>memberfile.loguser ftp31

shell脚本0——一切皆文件与管道

管道:grep foo /path/to/file | grep -n -k 3 | more 实际过程与我们直观认为的相反,最好通过实际过程理解.首先运行的是more,它的输入被连接至一个管道.然后是sort,并且其输出被连接至之前的那个管道.接着创建第二个管道,并且将sort的stdin连接至该管道.最后执行grep,将其stdout连接至与sort进程相连的那个管道. 当grep开始运行并输出数据时,数据顺着管道流向sort,sort处理后顺着管道输出到more,由more对管道输出的全部

ubuntu 用shell脚本实现将当前文件夹下全部文件夹中的某一类文件复制到同一文件夹下

当前文件夹下有一些文件和文件夹,当中每一个文件夹里都有若干.txt文件. 如今要求在当前文件夹创建一个新文件夹all,且将那些文件夹全部.txt文件 都复制到文件夹all.在ubuntu12.04的shell脚本实现例如以下: #!/bin/sh # 提示信息 echo "start:" # 定义变量 dst=all pst=.txt # 拷贝文件到目标目录 if [ -d ${dst} ] then echo "${dst} existed" else echo

shell脚本实现自动生成文件并更改其权限

在学习shell的时候,会不断的创建新文件,然后在新文件中的编写shell脚本学习.于是就有如下几个步骤: 1. 使用touch命令新建shell脚本 2. 编写shell脚本 3. 使用chmod更加shell脚本权限,使其具有可执行权限,然后执行 当多写几个脚本后,就发现这个过程很繁琐,而且新建的shell脚本是以数字升序进行创建的.为什么不写一个脚本来实现上述三个过程了.于是就开始了,结果花了好长一段时间才弄出来,真实惭愧,还是对shell不熟悉了. 先说说实现的思路: 1. 先得到目录下

[linux] shell脚本编程-统计日志文件中的设备号发通知邮件

1.日志文件列表 比如:/data1/logs/2019/08/15/ 10.1.1.1.log.gz 10.1.1.2.log.gz 2.统计日志中的某关键字shell脚本 zcat *.gz|grep 关键字 |grep -oP "deviceid=[^=]+"|uniq|sort -u > /tmp/20190815.log date 格式化出年月等信息,拼接成路径 wc -l /tmp/20190815.log , 获取到行数 php /xxxxx/sendmail.ph

shell脚本+mysql数据库组合进行数据安全监控

shell脚本 + mysql数据库 实现企业级会话边界控制器文件解析并告警 dirsx30001.sh处理文件,生成mysql备份文件的方式进行导入 #/bin/bash ##环境变量 path=/home/sbclog/sx30001 ##由于抓取的日志文件中没有年份参数,故导入系统年份参数,以达到数据库时间字段datetime ##也可以抓取tar包的名字中的字段 date_year=`date|cut -c 25-` #test ! -e $path/*.tar &&echo &q

《懒人Shell脚本》之七——格式化处理数据存入数据库实现

0.引言 实际应用开发中遇到:将非格式化的文件数据存储到数据库中.对于传统的格式化的数据:ini/json/xml我们都有现成的类库去实现.而对于如下非格式化的数据呢?以下是我的思考与实现. 数据截取片段如下所示: [[email protected] 2017]# head -n 10 input.txt [url]http://epaper.tianjinwe.com/mrxb/mrxb/2013-02/21/content_7566593.htm 新报讯[记者王晶通讯员赵子强]对31.66

Saiku数据库迁移后的刷新脚本-Shell脚本读取数据库中的数据(二十三)

Saiku数据库迁移后的刷新脚本 之前有谈过对saiku中的数据进行刷新,因为saiku默认会从缓存中查询数据,但是配置不使用缓存又会效率低下... 所以这里就需要做一个数据刷新,每次ETL之后都需要执行一遍数据刷新脚本. 刷新脚本主要分为两部分 1.使用shell命令从数据库中读取已有的用户信息 (因为已经做过数据迁移,数据库已经从h2转为我们自己的mysql) saikuRefresh.sh #!/bin/bash #数据库连接信息 HOSTNAME="10.11.22.33" #