词云分析《天龙八部》人物出现次数

一.需要的三方库

1.安装词云:

  pip install wordcloud

2.安装结巴

  pip install jieba

3.安装matplotlib

  pip install matplotlib

二.实现代码

 1 import jieba # 分词函数
 2 from scipy.misc import imread  # 这是一个处理图像的函数
 3 from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
 4 import matplotlib.pyplot as plt # 分析数据的函数
 5
 6 file_apath = open(‘tlbb.txt‘,‘r‘,encoding=‘UTF-8‘).read() # 打开文件
 7 bg_pic = imread(‘map.jpg‘) # 图片路径
 8
 9 # 王语嫣, 慕容复, 木婉清, 游坦之, 鸠摩智, 段延庆,包不同, 丁春秋, 阿紫, 阿朱, 段正淳, 钟万洪, 风波恶, 天山童姥, 耶律洪基...........
10
11 jieba.add_word(‘乔峰‘) # 添加关键词
12 jieba.add_word(‘段誉‘)
13 jieba.add_word(‘虚竹‘)
14
15 jieba.add_word(‘王语嫣‘)
16 jieba.add_word(‘慕容复‘)
17 jieba.add_word(‘木婉清‘)
18 jieba.add_word(‘段正淳‘)
19 jieba.add_word(‘鸠摩智‘)
20 jieba.add_word(‘游坦之‘)
21 jieba.add_word(‘包不同‘)
22 jieba.add_word(‘钟万洪‘)
23 jieba.add_word(‘耶律洪基‘)
24 jieba.add_word(‘萧峰‘)
25 jieba.add_word(‘南海恶神‘)
26 jieba.add_word(‘阿朱‘)
27 jieba.add_word(‘钟灵‘)
28 jieba.add_word(‘阿碧‘)
29 jieba.add_word(‘阿紫‘)
30 jieba.add_word(‘玄慈‘)
31
32
33
34
35 wordlist_jieba = jieba.cut(file_apath, cut_all = True) # 使用jieba分词
36 world_split = " ".join(wordlist_jieba) # 分词后的数据
37
38
39 my_wordcloud = WordCloud(background_color=‘white‘, # 设置背景色
40                         max_font_size=50, # 字体大小
41                         width=2100, height=1400,margin=2,  # 图片的宽,高,和边距
42                         mask=bg_pic, # 设置背景图片
43                         font_path="C:/Windows/Fonts/simhei.ttf"# 设置字体路径
44                         # random_state=42,
45                         )
46 # 屏蔽关键词
47 stopwords=STOPWORDS.add(‘自己‘)
48 stopwords=STOPWORDS.add(‘说道‘)
49 stopwords=STOPWORDS.add(‘什么‘)
50 stopwords=STOPWORDS.add(‘他们‘)
51 stopwords=STOPWORDS.add(‘一个‘)
52 stopwords=STOPWORDS.add(‘不是‘)
53 stopwords=STOPWORDS.add(‘便是‘)
54 stopwords=STOPWORDS.add(‘甚么‘)
55 stopwords=STOPWORDS.add(‘不知‘)
56 stopwords=STOPWORDS.add(‘咱们‘)
57 stopwords=STOPWORDS.add(‘我们‘)
58 stopwords=STOPWORDS.add(‘可是‘)
59 stopwords=STOPWORDS.add(‘只是‘)
60 stopwords=STOPWORDS.add(‘如此‘)
61 stopwords=STOPWORDS.add(‘这些‘)
62 stopwords=STOPWORDS.add(‘倘若‘)
63 stopwords=STOPWORDS.add(‘怎么‘)
64 stopwords=STOPWORDS.add(‘这么‘)
65
66
67 my_wordcloud.generate(world_split)  # 生成词云
68 image_colors = ImageColorGenerator(bg_pic)  # 转换字体主题色与图片一致
69 # 绘制词云
70 plt.figure()
71 plt.imshow(my_wordcloud.recolor(color_func=image_colors))
72 plt.title(‘Word Cloud‘) # 词云标题
73 plt.axis("off") # 关闭词云
74 plt.show() # 显示生成的词云图片
75 my_wordcloud.to_file(‘ciyun.png‘) # 保存图片

三.实现效果

  

原文地址:https://www.cnblogs.com/kadycui/p/9588942.html

时间: 2024-10-25 21:29:57

词云分析《天龙八部》人物出现次数的相关文章

词云分析

“词云”这个概念由美国西北大学新闻学副教授.新媒体专业主任里奇·戈登(Rich Gordon)提出.戈登做过编辑.记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任.他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸.广播.电视等其它媒体都望尘莫及的传播方式.通常,这些最新的.最适合网络的传播方式,也是最好的传播方式.词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文

【python数据挖掘】使用词云分析来分析豆瓣影评数据

概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果 数据:使用爬取的豆瓣影评数据 第一步:引入依赖库 # 1.表格库 import csv # 2.jieba分词器 import jieba # 3.算法运算库 import numpy # 4.图像库 from PIL import Image # 5.词云库 from wordcloud import WordCloud 第

红楼梦词云分析

~~~~~~~~~~~~~~~~~~~~步骤~~~~~~~~~~~~~~~~~~~~ ~~    ~~ 1):红楼梦文本 <红楼梦> 曹雪芹 高鄂 著 第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀 列位看官:你道此书从何而来?说起根由,虽近荒唐,细按则深有趣味.待在下将此来历注明,方使阅者了然不惑. 原来女娲氏炼石补天之时,于大荒山无稽崖炼成高经十二丈.方经二十四丈顽石三万六千五百零一块.娲皇氏只用了三万六千五百块,只单单剩了一块未用,便弃在此山青埂峰下.谁知此石自经煅炼之后,灵性已通,因见众石

词云分析之英文

from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.readlines() word_list = [] word_dic = {} for line in text: if re.findall('([a-zA-Z])', line.strip()): result

用词云图分析一带一路峰会哪3个词说的最多

前言 最近几日关注度最高的新闻莫过于一带一路峰会相关的消息,会议结束后,一带一路峰会联合公告已经公布出来了.本文通过词云分析,了解本次公告以及习大大在峰会开幕式上主要都讲了哪些关键内容. 1 一带一路峰会联合公告词云图 5月17日公布的一带一路峰会联合公告的词云分析结果图,如下: 词云图上,字体越大表示该词语在文件中出现的次数越多. 从上图可以看出,出现次数最多的3个词语为“合作”.“我们”以及“加强” ,基本可以看出,本次峰会是一个新的起点,今后需要做的事情还很多,需要各方务实合作,哈. 2

如何用Python做词云(收藏)

看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图.当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫.不过不要紧,好的开始是成功的一半嘛.食髓知味,后面你就可以自己升级技能,进入你开挂的成功之路. 网上教你做信息图的教程很多.许多都是利用了专用工具.这些工具好是好,便捷而强大.只是它们功能都太过专一,适用范围有限.今天我们要尝试的,是用通用的编程语言Python来做词云. Python是一种时下很流行的编程语言.你不仅

使用Python定制词云

一.实验介绍 1.1 实验内容 在互联网时代,人们获取信息的途径多种多样,大量的信息涌入到人们的视线中.如何从浩如烟海的信息中提炼出关键信息,滤除垃圾信息,一直是现代人关注的问题.在这个信息爆炸的时代,我们每时每刻都要更新自己的知识储备,而网络是最好的学习平台.对信息过滤和处理能力强,学习效率就会得到提高."词云"就是为此而诞生的."词云"是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"

[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写

词云,又称文字云.标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客.微博.文章分析等. 除了网上现成的Wordle.Tagxedo.Tagul.Tagcrowd等词云制作工具,在python中也可以用wordcloud包比较轻松地实现(官网.github项目): from wordcloud import WordCloud import matplotlib.pyplot as pl

从当当客户端api抓取书评到词云生成

看了好几本大冰的书,感觉对自己的思维有不少的影响.想看看其他读者的评论.便想从当当下手抓取他们评论做个词云.想着网页版说不定有麻烦的反爬,干脆从手机客户端下手好了.果其不然,找到一个书评的api.发送请求就有详情的json返回,简直不要太方便... 要是对手机客户端做信息爬取,建议安装一个手机模拟器. 思路: 在安装好的手机模拟器设置好用来抓包的代理,我用的charles.记得安装证书,不然抓不了https的数据包. 然后安装当当客户端,打开进到书评页面. 然后成功在charles找到了这个接口