txt去重

#encoding:utf-8
obuff = []
repeat = 0
path = raw_input(‘please input your path:  ‘)
for ln in open(path):
    if ln in obuff:                  
    	repeat+=1
        continue
    obuff.append(ln)
print "repeat columns is %s"  %repeat
with open(path, ‘w‘) as handle:
    handle.writelines(obuff)
时间: 2024-10-08 01:20:48

txt去重的相关文章

LINUX SHELL脚本攻略笔记[速查]

Linux Shell脚本攻略笔记[速查] 资源 shell script run shell script echo printf 环境变量和变量 pgrep shell数学运算 命令状态 文件描述符和重定向 cat 数组和关联数组 alias date 调试脚本 函数和参数 管道 读取命令输出 read 字段分隔符和迭代器 循环 比较和测试 find xargs tr md5sum sha1sum 对目录进行校验 sort uniq tempfile split bash变量匹配切分 exp

工作中编写的一些小脚本

#批量处理域名访问时间 while read line do ping -c 3 $line|tail -1 |awk -F "/" '{print $5}'>> result/"$line"_result.txt& done < wenzhou_domain.txt sleep 1m while read domain do a=`cat result/"$domain"_result.txt` if [ "

linux的cut、sort_wc_uniq、tee_tr_split命令及一些特殊符号介绍

shell特殊符号cut命令: 1.* 任意个任意字符(这是一个通配符) 2.? 任意一个字符 3. # 注释字符 4. \ 脱义字符 5. | 管道符 几个和管道有关的命令: 1.cut 分割,-d 分隔符  -f 指定段号   -c 指定第几个字符, 示例: [[email protected] ~]# cat /etc/passwd |head root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x

第八章 Linux Shell基础

8.1 Shell 介绍 linux的shell简单说就是一个命令行和用户交互的一个进程. 你打命令它会出结果. 类似windows里面的cmd窗口. 8.2 Shell 命令历史 所有敲过的命令都存在 <ls /root/.bash_history> ,这个文件最大可以存1000条<history> 可以查看敲过的命令<echo $HISTORY> 查看环境变量最大可以存多少条 <history -c>清内存命令历史,不能清空命令存储的文件.退出终端时才会

telnet小脚本

Shell学习之运维用的telnet小脚本 白羊IT关注0人评论1469人阅读2017-11-30 21:56:37 生活中经常遇到的一件事情我想是,领导给你一堆IP,让你去telnet测试下网络连通性,这时候你就需要写一个shell小脚本去高效的执行了.以下是我在生产环境上试验过的,不一定是最优的代码,当我想应该也够用了. 共有两种情况:第一种情况是每个IP的端口都不固定 IPs_Port.txt 存放的文件是 192.168.1.1 4949 192.168.2.3 9090 cat IPs

javaSE27天复习总结

JAVA学习总结????2 第一天????2 1:计算机概述(了解)????2 (1)计算机????2 (2)计算机硬件????2 (3)计算机软件????2 (4)软件开发(理解)????2 (5)语言????2 (6)人机交换????2 2:键盘功能键的认识和快捷键(掌握)????2 (1)功能键的认识????2 (2)快捷键????3 3:常见的DOS命令(掌握)????3 (1)常见的如下????3 (2)其他的几个(了解)????3 4:Java语言概述(了解)????4 (1)Jav

Hadoop阅读笔记(二)——利用MapReduce求平均数和去重

前言:圣诞节来了,我怎么能虚度光阴呢?!依稀记得,那一年,大家互赠贺卡,短短几行字,字字融化在心里:那一年,大家在水果市场,寻找那些最能代表自己心意的苹果香蕉梨,摸着冰冷的水果外皮,内心早已滚烫.这一年……我在博客园-_-#,希望用dt的代码燃烧脑细胞,温暖小心窝. 上篇<Hadoop阅读笔记(一)——强大的MapReduce>主要介绍了MapReduce的在大数据集上处理的优势以及运行机制,通过专利数据编写Demo加深了对于MapReduce中输入输出数据结构的细节理解.有了理论上的指导,仍

两个文件去重的N种姿势

最近利用shell帮公司优化挖掘关键词的流程,用shell替代了多个环节的操作,极大提高了工作效率. shell在文本处理上确有极大优势,比如多文本合并.去重等,但是最近遇到了一个难搞的问题,即两个大数据量文件去重. 有txt文件A.txt和B.txt. 其中A为关键词和搜索量,以逗号分隔,约90万行. B为关键词,约400万行. 需要从A中找出与B重复的关键词. 我试了N种姿势,但结果都不尽人意,最奇怪的是有些方法对小数据量的测试文件有用,一旦用在A与B上就会失败,真叫人百思不得其解. 姿势一

002 bitmap海量数据的快速查找和去重

题目描述 给你一个文件,里面包含40亿个整数,写一个算法找出该文件中不包含的一个整数, 假设你有1GB内存可用. 如果你只有10MB的内存呢? 对于40亿个整数,如果直接用int数组来表示的大约要用40*10^8*4B=16GB,超出了内存要求,这里 我们可以用bitmap来解决,bitmap基本思想是一位表示一个整数,比如我们有6个数据: 7   3  1  5  6  4 假设bitmap容量为8,当插入7时 bit[7]=1,一次类推 bit[3]=1 bit[1]=1 bit[5]=1