复合数据类型,英文词频统计

1.列表,元组,字典,集合分别如何增删改查及遍历。

列表:list1 = ["a", "b", "c", "d"]; #设置列表1

print(list1);    #输出列表1

#增list1.insert(4,‘e‘);    #增添元素print(list1);

#删list1.pop(3) #删除指定位置元素print(list1);

#改list1[0] = ‘q‘ #直接修改位置元素print(list1)

#查x = list1.index(‘c‘);  #从列表中找出某个值的索引位置print(x);

#遍历列表中的每一个元素for i in list1: print(i)

元组:num1 = (‘a‘, ‘b‘,‘c‘, ‘d‘);    #设置元组num2 = (‘e‘, 1,‘g‘)num3=num1+num2  #元组不支持修改,但可以通过连接组合的方式进行增加
print(num3)#查print (num1[0] ,num2[0])

字典:
num = {‘a‘: 1, ‘b‘: 2, ‘c‘:3}   #定义字典#增num[‘d‘] = 4     # 添加信息print(num)#删del num[‘d‘] # 删除键 d‘print(num)#改num[‘a‘] = ‘0‘;    # 更新aprint(num)#查print(num[‘a‘])
集合:
set={1,2,3} #定义一个集合#增set.add(4)print(set)

#删set.remove(4)print(set)

#集合不能进行修改和查找

#遍历for x in set:    print(x)
 

2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:

  • 括号
  • 有序无序
  • 可变不可变
  • 重复不可重复
  • 存储与查找方式
  列表 元组 字典 集合
括号 []  ()  {}  set() 
有序无序  有序  有序  无序   无序
 可变不可变  可变  不可变   可变   不可变 
重复不重复   是  是  否

存储方式         
 

3.词频统计

  • 1.下载一长篇小说,存成utf-8编码的文本文件 file

    2.通过文件读取字符串 str

    3.对文本进行预处理

    4.分解提取单词 list

    5.单词计数字典 set , dict

    6.按词频排序 list.sort(key=lambda),turple

    7.排除语法型词汇,代词、冠词、连词等无语义词

    • 自定义停用词表
    • 或用stops.txt

8.输出TOP(20)

exclude={‘is‘,‘the‘,‘and‘,‘i‘,‘you‘,‘in‘,‘but‘,‘not‘,‘with‘,‘by‘,‘its‘,‘for‘,‘of‘,‘an‘,‘to‘,‘a‘,‘he‘,‘him‘,‘was‘,‘it‘,‘that‘,‘her‘}  #定义停用词##读取a.txt内容#def gettxt():    sep=".,:;?!-_‘”"    txt=open(‘a.txt‘,‘r‘).read().lower()    for ch in sep :        txt=txt.replace(ch,‘ ‘)    return txt#获取单词#bigList=gettxt().split()print(bigList);print(‘big:‘,bigList.count(‘big‘))bigSet=set(bigList)#过滤单词,包括一些冠词和连词等#bigSet=bigSet-excludeprint(bigSet)#单词计数#bigDict={}for word in bigSet:    bigDict[word]=bigList.count(word)print(bigDict)

print(bigDict.items())word=list(bigDict.items())#按词频排序#word.sort(key=lambda x:x[1],reverse=True)print(word)#输出频率较高的词语top20#for i in range(20):    print(word[i])

结果:
 

原文地址:https://www.cnblogs.com/183289879qq/p/10525938.html

时间: 2024-09-30 21:23:10

复合数据类型,英文词频统计的相关文章

组合数据类型练习,英文词频统计实例上

字典实例:建立学生学号成绩字典,做增删改查遍历操作. #创建一个空字典 dict={} s=dict print(s) #增加键值对(学号-成绩) s['001']=60 s['002']=70 s['003']=80 s['004']=90 print(s) #删除 s.pop('004') print(s) #修改 s['001']=69 print(s) #查找键是否存在 s.get('005','不存在') print(s) #便历 for i in s: print(i) 2.列表,元

作业8-组合数据类型练习,英文词频统计实例上

1.字典实例:建立学生学号成绩字典,做增删改查遍历操作. 总结列表,元组,字典,集合的联系与区别. 运行结果: 2.列表,元组,字典,集合的遍历,总结列表,元组,字典,集合的联系与区别. 运行结果: 区别: 列表用"[]"表示,列表是可变的数据类型,即这种类型是可以被改变的,并且列表是可以嵌套的. 元组用"()"表示,元祖和列表十分相似,不过元组是不可变的,但也可以嵌套. 字典用"{}"表示,注意它们的键/值对用冒号分割,而各个对用逗号分割,所有

组合数据类型练习,英文词频统计实例

1.由字符串创建一个作业评分表,做增删改查询统计遍历操作,例如查询第一个3分的下标,统计1分的同学有几个,3分的同学有几个,增删改查等等. 2.字典实例:建立学生学号成绩字典,做增删改查遍历操作. 3.列表,元组,字典,集合的遍历. 4.英文词频统计实例 news = '''When I was young I'd listen to the radio Waiting for my favorite songs When they played I'd sing along, It make

组合数据类型和英文词频统计实例

1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. >>> ls=list('1231323232323131323') >>> ls ['1', '2', '3', '1', '3', '2', '3', '2', '3', '2', '3', '2', '3', '1', '3', '1', '3', '2', '3'] >>> ls.append('4'

组合数据类型练习,英文词频统计实例上列表,元组,字典,集合的遍历。 总结列表,元组,字典,集合的联系与区别。

1.字典实例:建立学生学号成绩字典,做增删改查遍历操作. d={'天':95,'青':78,'色':65,'等':66}print('学生成绩字典:',d)d['烟']=98print('增加:',d)d.pop('等')print('删除:',d)d['天']=78print('修改:',d)print('查询青成绩:',d.get('青','无')) 2.列表,元组,字典,集合的遍历.总结列表,元组,字典,集合的联系与区别. s=list('123456789')t=set('7564231

组合数据类型练习,英文词频统计实

1,建立学生学号成绩字典,做增删改查遍历操作. #创建 d={'01':73,'02':98,'03':66,'04':88,'05':73} d {'01': 73, '02': 98, '03': 66, '04': 88, '05': 73} #查找 >>> d['04'] 88 #插入 >>> d['06']='75' >>> d {'01': 73, '02': 98, '03': 66, '04': 88, '05': 73, '06':

八、组合数据类型练习,英文词频统计实例上

1.字典实例:建立学生学号成绩字典,做增删改查遍历操作. dict={'001':'66','003':'77','006':'88','009':'99'} print('学生学号成绩:',dict) dict['007']=96 print('增加学号为007的学生的成绩为96:',dict) dict.pop('001') print('删除学号为001的学生的记录:',dict) dict['007']=100 print('修改学号为007的学生的成绩为100:',dict) prin

组合数据类型,英文词频统计 python

练习: 总结列表,元组,字典,集合的联系与区别.列表,元组,字典,集合的遍历. 区别: 一.列表:列表给大家的印象是索引,有了索引就是有序,想要存储有序的项目,用列表是再好不过的选择了.在python中的列表很好区分,遇到中括号(即[ ]),都是列表,定义列表也是如此.列表中的数据可以进行增删查改等操作: 增加有两种表达方式(append().expend()),关于append的用法如下(注:mylist定义的列表名称):不难看出,用append方法增加元素,不用给元素加中括号,而用exten

Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不清楚配置可看<Hadoop之词频统计小实验初步配置> 3)本文由于过长,无法一次性上传.其相邻相关的博文,可参见<Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构>,以阅览其余三篇剩余内容文档. (五)单机伪分布的英文词频统计Python&Streamin

(第二周)新英文词频统计

需求分析 1.两种读取文件的方法(建立两个类):  小文本输入.命令行输入文件名 2.进行词频统计 3.对结果进行排序并输出 https:https://git.coding.net/yanzouzhe/ywcptj.git SSH:[email protected]:yanzouzhe/ywcptj.git 功能实现 1.小文本输入读取文件 public class Article { /** * @param args */ String content;// 保存文章的内容 String[