python 利用jieba库词频统计

 1 #统计《三国志》里人物的出现次数
 2
 3 import jieba
 4 text = open(‘threekingdoms.txt‘,‘r‘,encoding=‘utf-8‘).read()
 5 excludes = {‘将军‘,‘却说‘,‘二人‘,‘不能‘,‘如此‘,‘荆州‘,‘不可‘,‘商议‘,‘如何‘,‘军士‘,‘左右‘,‘主公‘,‘引兵‘,‘次日‘,‘大喜‘,‘军马‘,
 6 ‘天下‘,‘东吴‘,‘于是‘}
 7 #返回列表类型的分词结果
 8 words = jieba.lcut(text)
 9 #通过字典映射,统计次数
10 counts = {}
11 for word in words:
12     if len(word) == 1:
13         continue
14     elif word == ‘孔明曰‘ or word == ‘孔明‘:
15         rword = ‘诸葛亮‘
16     elif word == ‘关公‘ or word == ‘云长‘:
17         rword = ‘关羽‘
18     elif word == ‘玄德‘ or word == ‘玄德曰‘:
19         rword = ‘刘备‘
20     elif word == ‘孟德‘ or word == ‘丞相‘:
21         rword = ‘曹操‘
22     else:
23         rword = word
24     counts[rword] = counts.get(rword,0) + 1
25 for word in excludes:
26     del counts[word]
27 items = list(counts.items())
28 #排序,从大到小
29 items.sort(key=lambda x:x[1],reverse=True)
30 for i in range(5):
31     word,count = items[i]
32     print(‘{0:<10}{1:>5}‘.format(word,count))

原文地址:https://www.cnblogs.com/sineik/p/9302218.html

时间: 2024-10-31 06:58:07

python 利用jieba库词频统计的相关文章

jieba库词频统计练习

在sypder上运行jieba库的代码: import matplotlib.pyplot as pltfracs = [2,2,1,1,1]labels = 'houqin', 'jiemian', 'zhengjiehong','baogan','dadaima'explode = [ 0,0,0,0,0]plt.axes(aspect=1)plt.pie(x=fracs, labels=labels, explode=explode,autopct='%3.1f %%', shadow=T

python实例:利用jieba库,分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序

本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 txt=open("C:\\Users\\Beckham\\Desktop\\python\\倚天屠龙记.txt","r", encoding='utf-8').read() #打开倚天屠龙记文本 words=jieba.lcut(txt) #jieba库分析文本 对数据进行筛选和处理 for word in words:

jieba库分词统计

代码在github网站,https://github.com/chaigee/chaigee,中的z2.py文件 py.txt为团队中文简介文件 代码运行后词频统计使用xlwt库将数据发送到excel表格,如图,频数为1的省略 在excel表格作柱形图如图所示 由此分析我们团队的简介用词得出:我们团队不仅注重团队合作,而且注重团队分工,发扬队员风格,提高队员对项目的兴趣,做擅长的工作,多次提到宣言以此提高团队凝聚力. 原文地址:https://www.cnblogs.com/chaigee/p/

python 利用PIL库进行更改图片大小的操作

python 是可以利用PIL库进行更改图片大小的操作的,当然一般情况下是不需要的,但是在一些特殊的利用场合,是需要改变图片的灰度或是大小等的操作的,其实用python更改图片的大小还是蛮简单的,只需要几行代码,有一点可能刚入门的小伙伴们可能不知道PIL库,PIL是一个库的简写,他的真名叫做pillow,因此,需要pip install pillow 用anaconda的话是conda install pillow千万不要pip/conda install PIL咯,下面贴出代码,希望对一些小伙

python利用selenium库识别点触验证码

利用selenium库和超级鹰识别点触验证码(学习于静谧大大的书,想自己整理一下思路) 一.超级鹰注册:超级鹰入口 1.首先注册一个超级鹰账号,然后在超级鹰免费测试地方可以关注公众号,领取1000积分,基本上就够学习使用了.如果想一直用可以用,可以充值,不是很贵. 2.下载超级鹰的python库代码.代码 3.然后有测试案例,自己可以试着跑一跑代码. 二.使用selenium库来识别点触式验证码: 1.首先是找一个使用点触式二维码的网站:(这个真的是比较难找了,由于静谧大大书上的网站被封了,我找

Python利用jieba获取中文词汇等

import jieba import os import jieba.analyse data = cleaned_comments # 数据来源于评论数据 seg = jieba.lcut(data) print(seg) # 增加自定义词表库 mydict = os.getcwd()+"/mydict.txt" jieba.load_userdict(mydict) seg = jieba.lcut(data) print(seg) import jieba.posseg as

Python利用Dlib库进行人脸识别

0.引言 自己在下载dlib官网给的example代码时,一开始不知道怎么使用,在一番摸索之后弄明白怎么使用了: 现分享下 face_detector.py 和 face_landmark_detection.py 这两个py的使用方法: 1.开发环境 python: 3.6.3 dlib: 19.7 2.py文件功能介绍 face_detector.py : 识别出图片文件中一张或多张人脸,并用矩形框框出标识出人脸: face_landmark_detection.py : 在face_det

python利用PIL库使图片高斯模糊

一.安装PIL PIL是Python Imaging Library简称,用于处理图片.PIL中已经有图片高斯模糊处理类,但有个bug(目前最新的1.1.7bug还存在),就是模糊半径写死的是2,不能设置.在源码ImageFilter.py的第160行: 所以,我们在这里自己改一下就OK了. 项目地址:http://www.pythonware.com/products/pil/ 二.修改后的代码 代码如下: #-*- coding: utf-8 -*- from PIL import Imag

Python 利用random库来实现圆周率的运算

蒙特卡罗方法求解圆周率 随机向一个正方形以及其内切圆(半径为1)的图形中随机抛洒大量的点,计算每个点到圆心的距离从而判断该点在圆内或圆外,用圆内的点除以总点数就是π/4的值.点数越多,值就越精确. 具体算法如下: 运算结果: 原文地址:https://www.cnblogs.com/hyz1900457346/p/11625307.html