python set集合按行去重

s3=set()
#s3=set(open(‘/home/work/ctt/20150409.uid.head‘,‘r‘).readlines())
file=open(‘/home/work/ctt/20150409.uid.head‘)
for line in file.readlines():
   line=line.strip(‘\n‘)
#   print line
   s3.add(line)
print s3

s3.add(line) 而不是s3=set(line)

时间: 2024-10-12 07:57:34

python set集合按行去重的相关文章

python做文本按行去重

文本: 每行在promotion后面包含一些数字,如果这些数字是相同的,则认为是相同的行,对于相同的行,只保留一行. 思路: 根据字典和字符串切割. 建立一个空字典. 读入文本,并对每行切割前半部分,在读入文本的过程中循环在这个字典中查找,如果没找到,则写入该行到字典.否则,则表示该行已经被写入过字典了(即出现重复的行了),不再写入字典,这就实现了对于重复的行只保留一行的目的. 文本如下: /promotion/232   utm_source /promotion/237   LandingP

python学习笔记-(七)python基础--集合、文件操作&函数

本节内容 1.集合操作 2.文件操作 3.字符编码与转码 4.函数操作 1.集合操作 集合是一个无序的.不重复的数据组合: 1.1 常用操作 它的作用是: 1)自动去重:列表变成集合,自动去重: 1 2 3 4 >>> list_1 = [1,4,4,5,6,7,9,10] >>> list_1 =set(list_1) >>> print(list_1) {1, 4, 5, 6, 7, 9, 10} 2)关系测试:测试两组数据之间的关系,交集.并集.

python的集合、递归、函数和模块

一.python的集合 集合具有天生去重和无序的特性,也由于无序,所以集合无法通过下标取值 新建一个集合的方法是: s = set()   #空集合 s2 = {'1','2','3'} 添加元素的方法为: s.add('1') 删除元素的方法为: s.remove('1') s.pop()    #随机删除一个值 s1 = {1,2,3} s2 = {3,4,5} 交集: s2.intersection(s2) s2 & s1 并集: s2.union(s1) s2 | s1 差集(取s2里不

python 元组集合

--> Python 元组集合 一.元组 元组和列表差不多.也是存一组数. PS:元组一旦创建便不可更改. 故又称只读列表.存放一些不想被人修改的数据.如身份证等信息 语法: name = ("yuhonglin","gouer","xixihaha") 方法: 只有两方法. 1.count 2.index 二.集合 定义:由不同元素组成的集合. 集合是一个无序排列可hash值. 可以作为字典的key 作用: 去重. 把一个列表变成集合,就

Python:集合操作总结

集合是一组无序排列的不重复元素集 [注]:集合的最大作用是对一个序列进行去重操作 一.集合的分类 在Python中集合分为两类,为可变集合(set)和不可变集合(frozenset).对于可变集合(set)是允许添加和删除元素的:而对于不可变集合(frozenset)则不允许对集合进行添加和删除操作. 二.集合的创建 与列表([]).元组(())和字典({})不同,集合的创建没有特别的语法格式,因此如果想要创建集合就必须调用创建集合所需的工厂函数:set()和frozenset()  [注]:这

Python的集合和元组

一.元组 元组也是一个list,但它的值不能改变 Python 的元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可. 定义元组的时候,只有一个元素时,后面需要加逗号, 元组操作:http://www.runoob.com/python3/python3-tuple.html 二.集合 集合(set)是一个无序的不重复元素序列. 可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合

Python练习题4(列表去重):[5,3,4,'ok',4,3,'abc',8,52,'ok']去除列表中重复内容 方法一:使用set 方法二:不使用set,自己写方法

方法一:利用集合去重 1 list1 = [5,3,4,'ok',4,3,'abc',8,52,'ok'] 2 list1=list(set(list1)) 3 print(list1) 方法二:此方法略微冗余,先判断元素是否重复,再将重复元素提取并保存到新列表中,再for 新建的列表元素,删除原列表 1 def list_dup(ls): 2 list2 = [] 3 length = len(ls) #获取列表元素个数 4 for i in range(0,length-1): 5 for

python程序在命令行执行提示ModuleNotFoundError: No module named 'XXX' 解决方法

原文链接:https://www.cnblogs.com/dreamyu/p/7889959.html 在ide中执行python程序,都已经在默认的项目路径中,所以直接执行是没有问题的.但是在cmd中执行程序,所在路径是python的搜索路径,如果涉及到import引用就会报类似ImportError: No module named xxx这样的错误,解决方法: 在报错的模块中添加: import sys import os curPath = os.path.abspath(os.path

Python 列表\集合\ 字典推导式、生成器表达式

Python 列表\集合?字典推导式.生成器表达式 列表推导式 循环模式 l1 = [i for i in range(1,11)] l2 = [i ** 2 for i in range(100)] l3 = [f'python{i}' for i in range(50)] 筛选模式: l1 = [i for i in range(1,31) if i % 3 == 0] 嵌套循环: names = [['tom','billy','jefferson'],['wesley','steven