资深Python程序员教你统计,三国中人物名字出现的频率,很简单

资深Python程序员教你简单、有趣的程序:
使用第三方库jieba切分,统计统计名著三国演义中人物名字出现次数。

资深Python程序员教你统计,三国中人物名字出现的频率,很简单
其中一个jieba库是一个对中文文本依照汉字间关联概率进行词组划分的第三方库,使用简单,且非常好用

import jieba

def getWords():
 txt = open(‘novels/threekingdoms.txt‘, ‘r‘, encoding = ‘utf-8‘).read()
 words = jieba.lcut(txt)
 counts = {}
 for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1
 word_list = list(counts.items())
 word_list.sort(key = lambda x : x[1], reverse = True)
 return word_list

进行人肉优化,去掉不是人名的词语,并将一些指同一个人物的词合并到一个人物下。

import jieba

def countWords(excludes, merges):
 txt = open(‘novels/threekingdoms.txt‘, ‘r‘, encoding = ‘utf-8‘).read()
 words = jieba.lcut(txt)
 counts = {}
 # 取出长度为一的词和符号以及excludes中的词
 for word in words:
 if len(word) == 1 or word in excludes:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1
 # 合并名称相同的人名
 for merge in merges:
 for name in merge[1]:
 counts[merge[0]] += counts.get(name, 0)
 del counts[name]
 word_list = list(counts.items())
 word_list.sort(key = lambda x : x[1], reverse = True)
 return word_list
excludes = {‘却说‘,‘二人‘,‘不可‘,‘主公‘,‘陛下‘,‘汉中‘,‘只见‘,‘众将‘,‘后主‘,‘蜀兵‘,‘上马‘,‘大叫‘,‘太守‘,‘此人‘,‘夫人‘,
 ‘先主‘,‘后人‘,‘背后‘,‘城中‘,‘天子‘,‘一面‘,‘何不‘,‘大军‘,‘忽报‘,‘先生‘,‘百姓‘,‘何故‘,‘不能‘,‘如此‘,‘如何‘,
 ‘然后‘,‘先锋‘,‘不如‘,‘赶来‘,‘原来‘,‘令人‘,‘江东‘,‘下马‘,‘喊声‘,‘正是‘,‘徐州‘,‘忽然‘,‘荆州‘,‘左右‘,‘军马‘,
 ‘因此‘,‘成都‘,‘不见‘,‘未知‘,‘大败‘,‘大事‘,‘之后‘,‘一军‘,‘引军‘,‘起兵‘,‘军中‘,‘接应‘,‘引兵‘,‘次日‘,‘大喜‘,
 ‘进兵‘,‘大惊‘,‘可以‘,‘以为‘,‘大怒‘,‘不得‘,‘心中‘,‘下文‘,‘一声‘,‘追赶‘,‘粮草‘,‘天下‘,‘东吴‘,‘于是‘,‘都督‘,
 ‘曹兵‘,‘一齐‘,‘分解‘,‘回报‘,‘分付‘,‘只得‘,‘出马‘,‘三千‘,‘大将‘,‘许都‘,‘随后‘,‘报知‘,‘今日‘,‘不敢‘,‘魏兵‘,
 ‘前面‘,‘之兵‘,‘且说‘,‘众官‘,‘洛阳‘,‘领兵‘,‘商议‘,‘军士‘,‘星夜‘,‘精兵‘,‘城上‘,‘之计‘,‘不肯‘,‘相见‘,‘其言‘,
 ‘一日‘,‘而行‘,‘文武‘,‘襄阳‘,‘准备‘,‘若何‘,‘出战‘,‘亲自‘,‘必有‘,‘一人‘,‘人马‘,‘不知‘,‘何人‘,‘此事‘,‘之中‘,
 ‘伏兵‘,‘祁山‘,‘乘势‘,‘忽见‘,‘大笑‘,‘樊城‘,‘兄弟‘,‘首级‘,‘立于‘,‘西川‘,‘传令‘,‘当先‘,‘五百‘,‘一彪‘,‘坚守‘,
 ‘此时‘,‘之间‘,‘投降‘,‘五千‘,‘埋伏‘,‘长安‘,‘三路‘,‘遣使‘,‘将军‘,‘关兴‘,‘军师‘,‘朝廷‘,‘三军‘,‘大王‘,‘回见‘,
 ‘大将军‘,‘必然‘,‘将士‘,‘是夜‘,‘小路‘ }

merges = [ (‘刘备‘,(‘玄德‘,‘玄德曰‘,‘玄德问‘,‘刘玄德‘,‘玄德大‘,‘玄德自‘,‘玄德闻‘,‘皇叔‘,‘刘皇叔‘)),
 (‘关羽‘,(‘关公‘,‘云长‘,‘关云长‘)),
 (‘孔明‘,(‘诸葛亮‘,‘孔明曰‘,‘孔明笑‘,‘孔明之‘,‘孔明自‘)),
 (‘曹操‘,(‘丞相‘,‘孟德‘,‘曹公‘,‘曹孟德‘)),
 (‘张飞‘,(‘翼德‘,‘张翼德‘))
 ]

word_list = countWords(excludes, merges)
for i in range(30):
 word, count = word_list[i]
 print(‘{0:^10}{1:{3}^10}{2:^15}‘.format(i+1, word, count, chr(12288))) # chr(12288)为中文空格 ```
结果如下,当然其中类似将军、英雄、主公、大哥、君这种词语无法判断指的是谁,这里仅统计能够判断的,所以这里只能做一个相对的参考。

1     刘备     1578
2     曹操     1485
3     孔明     1485
4     关羽     820
5     张飞     393
6     吕布     300
7     赵云     278
8     孙权     264
9     司马懿     221
10     周瑜     217
11     袁绍     191
12     马超     185
13     魏延     180
14     黄忠     168
15     姜维     151
16     马岱     127
17     庞德     122
18     孟获     122
19     刘表     120
20     夏侯惇     116
21     董卓     114
22     孙策     108
23     鲁肃     107
24     徐晃     97
25     司马昭     89
26     夏侯渊     88
27     王平     88
28     刘璋     85
29     袁术     84
30     吕蒙     83



以上是Python语言中的一个小案例,仅供大家参考。

原文地址:http://blog.51cto.com/14167862/2349110

时间: 2024-10-07 12:45:20

资深Python程序员教你统计,三国中人物名字出现的频率,很简单的相关文章

Python程序员最常犯的十个错误

不管是在学习还是工作过程中,人都会犯错.虽然Python的语法简单.灵活,但也一样存在一些不小的坑,一不小心,初学者和资深Python程序员都有可能会栽跟头.本文是Toptal网站的程序员梳理的10大常见错误,非常有参考意义.大家在开发过程中需要格外注意.译文中如有理解错误的地方,可以在网站留言或通过微信公众号编程派回复. 常见错误1:错误地将表达式作为函数的默认参数 在Python中,我们可以为函数的某个参数设置默认值,使该参数成为可选参数.虽然这是一个很好的语言特性,但是当默认值是可变类型时

Python程序员的发展前景是怎样的?

Python程序员的发展前景是怎样的? 随着Python的技术的流行, Python在为人们带来工作与生活上的便捷后,关注者们开始慢慢关心Python的发展前景与方向. 从自身特性看Python发展 Python自身强大的优势决定其不可限量的发展前景.Python作为一种通用语言,几乎可以用在任何领域和场合,角色几乎是无限的.Python具有简单.易学.免费.开源.可移植.可扩展.可嵌入.面向对象等优点,它的面向对象甚至比java和C#.net更彻底. 它是一种很灵活的语言,能帮你轻松完成编程工

月薪3万的python程序员都看了这本书

想必大家都看过吧 Python编程从入门到实践 全书共有20章,书中的简介如下: 本书旨在让你尽快学会 Python ,以便能够编写能正确运行的程序 —— 游戏.数据可视化和 Web 应用程序,同时掌握让你终身受益的基本编程知识.本书适合任何年龄的读者阅读,它不要求你有任何 Python 编程经验,甚至不要求你有编程经验.如果你想快速掌握基本的编程知识以便专注于开发感兴趣的项目,并想通过解决有意义的问题来检查你对新学概念的理解程度,那么本书就是为你编写的.本书还可供初中和高中教师用来通过开发项目

Python程序员糟糕的一天

Python程序员糟糕的一天!! 第一张图是上午上班前,第二张图是下午下班前,一天下来就加了一个return! 为了方便你们看懂具体(主要)的改动,我加了第三张图(上班前)和第四张图(下班前). 第一张图(因图片显示不完整而看不清楚的,请在"在新标签页中打开图片"): 第二张图: 第三张图: 第四张图: 上班前代码: #!/usr/bin/python # encoding: utf-8 # -*- coding: utf8 -*- """ Created

程序员教流浪汉编程,开发APP

panpan @ 2013.10.05 , 09:34 am 一天,Patrick McConlogue宣布他将要教一个流浪汉学Java语言,帮助他开发一个属于他自己的app.今年23岁的Patrick是一名软件工程师,每天在去上班的路上他都会遇见那个流浪汉,然后他就决定践行自己的一个主意,看看他会不会是那个人. “这个主意很简单.”Patrick在自己的网站上写道: 1.我明天再路过时给你100美元.2.我明天再路过时给你三本JavaScript教程(入门级.高级.专家级)和一台便宜的笔记本.

CSDN日报20170319——《人工智能风口, Python 程序员的狂欢与企业主的哀嚎》

[程序人生]人工智能风口, Python 程序员的狂欢与企业主的哀嚎 作者:赖勇浩 人工智能风口有多火?估计很多人已经感受到了,我在这里引用一下新智元的报道: "2017年短短不到三个月的时间,国内AI获投项目已有36个,千万级别融资占据半数以上." 嗯,就是那么霸道.两会刚刚结束,"人工智能"首次被列入政府工作报告,随之而来的是人工智能板块领跑大盘涨势,无疑,这一切将刺激人工智能在多个领域的全面发展. [深度学习]NeuralFinder :集成人工生命和遗传算法

Python程序员鲜为人知但你应该知道的16个问题(转)

add by zhj: 没找到原文出处,只能找到转载的,文中说有17个坑,其实是16个 全文如下 这篇文章主要介绍了Python程序员代码编写时应该避免的16个“坑”,也可以说成Python程序员代码编写时应该避免的17个问题,需要的朋友可以参考下 1. 不要使用可变对象作为函数默认值 代码如下: In [1]: def append_to_list(value, def_list=[]): ...: def_list.append(value) ...: return def_list ...

Python程序员的10个常见错误(转)

add by zhj:虽然学Python也有两年了,但这些问题的确容易犯,看来对Python的理解还有些地方不深入.先转了,有时间再好好看 译文:http://blog.jobbole.com/68256/ 本文由 伯乐在线 - datorhjaelten 翻译.未经许可,禁止转载!英文出处:toptal.欢迎加入翻译小组. 关于Python Python是一门解释性的,面向对象的,并具有动态语义的高级编程语言.它高级的内置数据结构,结合其动态类型和动态绑定的特性,使得它在快速应用程序开发(Ra

Python 程序员经常犯的 10 个错误

关于PythonPython是一种解释性.面向对象并具有动态语义的高级程序语言.它内建了高级的数据结构,结合了动态类型和动态绑定的优点,这使得... 关于Python Python是一种解释性.面向对象并具有动态语义的高级程序语言.它内建了高级的数据结构,结合了动态类型和动态绑定的优点,这使得它在快速应用开发中非常有吸引力,并且可作为脚本或胶水语言来连接现有的组件或服务.Python支持模块和包,从而鼓励了程序的模块化和代码重用. 关于这篇文章 Python简单易学的语法可能会使Python开发