【Python成长之路】词云图制作

【写在前面】

以前看到过一些大神制作的词云图 ,觉得效果很有意思。如果有朋友不了解词云图的效果,可以看下面的几张图(图片都是网上找到的);

网上找了找相关的软件,有些软件制作 还要付费。结果前几天在大神的公众号里的文章中看到了python也能实现,而且效果也很不错 。那还等什么,不赶紧盘它?

【示例代码】

 1 # coding=utf-8
 2 # @Auther : "鹏哥贼优秀"
 3 # @Date : 2019/7/31
 4 # @Software : PyCharm
 5 import numpy as np
 6 import jieba
 7 from PIL import Image
 8 from wordcloud import WordCloud, STOPWORDS
 9 import matplotlib.pyplot as plt
10
11 def draw_word_cloud(word):
12     words = jieba.cut(word)
13     wordstr = " ".join(words)
14     sw = set(STOPWORDS)
15     sw.add("ok")
16     mask = np.array(Image.open(‘2.jpg‘))
17     wc = WordCloud(
18         font_path=‘C:/Windows/Fonts/simhei.ttf‘,  # 设置字体格式
19         mask=mask,
20         max_words=200,
21         max_font_size=100,
22         stopwords=sw,
23         scale=4,
24     ).generate(wordstr)
25
26     # 显示词云图
27     plt.imshow(wc)
28     plt.axis("off")
29     plt.show()
30     # 保存词云图
31     wc.to_file(‘result.jpg‘)
32
33 if __name__ == "__main__":
34     with open("test2.txt", "rb") as f:
35         word = f.read()
36     draw_word_cloud(word)

【效果如下】

【知识点】

1、词云图 制作前,需要先准备几个东西:

(1)下载python wordcloud库,也是词图库制作的关键库。我在下载这个库 时,经常因为网络超时导致下载失败,怎么办呢?多试几次呗;

(2)numpy库,用于图片处理,将图片读取后解析成数组;

(3)如果要对中文句子进行分词,那么需要jieba库;如果是英文分词,那可以不下载;

(4)如果要在界面上直接展示词云图 ,那么需要matlplotlib来画图;

(5)要处理图片,根据少不了PIL,毕竟它可是官方的图像处理库;

2、接下来,就是准备要分析的内容。示例代码中的txt内容,是我上一篇文章。然后就是词云图的形状。示例代码中的图片2.jpg原图如下:

3、准备工作 做完了,那自然就开始编码了。

(1)jieba.cut():就是对txt内容进行分词了,注意得到的是个generator,因此需要将其转成字符串;当然也可以使用jieba.lcut(),这 样得到的就是列表了;

(2)STOPWORDS集合的设置:停用词有什么呢?主要是对一些你不想要的单词进行过滤,比如“好的”“可以”这 类单词。另外,在对停用词进行过滤时,有两种方法,一种是像示例代码,将stopwords作为wordcloud方法的参数,这样最简单;也可以自己写段代码,人为过滤停用词;

(3)将你要的词云图形状图片打开,并作为参数传给wordcloud方法

(4)wordcloud方法各参数的意义,可以参考其他帖子:

https://blog.csdn.net/kouyi5627/article/details/80530569

里面我想着重讲的是regexp参数,即正则表达式。没错,就是正则表达式,有了这个参数,我们可以用正则表达式规则进一步实现自己的单词过滤,比如\d只显示数字。我之前遇到过 这 个坑,下面再讲。

另外,scale=4生成的图片一般是500KB左右,如果不填,默认只有10几KB;

(5)对内容进行生成词云图时,generate方法最简单,直接将字符串传进来就可以;generate_from_frequencies方法的话,需要传入字典,并自己统计好每个单词的次数;

(6)界面显示词云图的代码很简单,axis("off")是为了不显示坐标,这样更美观;

(7)即将生成的词云图保存到本地,也不多解释。

综上,大致就是示例代码 的流程,是不是蛮简单的?那自己动手来玩一次吧。

4、下面我再讲讲自己在制作词云图遇到的坑。

一开始我是想对各期双色球号码进行词云图分析的,结果一直报错,错误如下:

ValueError: We need at least 1 word to plot a word cloud, got 0.

意思就是说我传入的wordstr是空的?怎么可能呢,我明明有数字呀?最后我在wordcloud方法的官方说明中找到了原因:

看到没?regexp参数如果不填写的话,默认是会自动过滤掉单个词的,因此数字就是因为这个原因一直被过滤了。怎么解决呢?有两个办法,第一就是传入regexp参数,比如regexp="\d*";第二种方法就是用

generate_from_frequencies方法,这样因为有每个数字的频繁在,就不会自动被过滤掉了。从我自己的使用结果来看,还是用第二种方法的效果好看点。

如果大家觉得看了有所帮助或者喜欢的话,可以关注我的公众号“鹏哥贼优秀”,谢谢大家!

HDC.Cloud 华为开发者大会2020 即将于2020年2月11日-12日在深圳举办,是一线开发者学习实践鲲鹏通用计算、昇腾AI计算、数据库、区块链、云原生、5G等ICT开放能力的最佳舞台。

欢迎报名参会https://www.huaweicloud.com/HDC.Cloud.html?utm_source=&utm_medium=&utm_campaign=&utm_content=techcommunity

原文地址:https://www.cnblogs.com/huaweicloud/p/12229478.html

时间: 2024-11-07 22:09:47

【Python成长之路】词云图制作的相关文章

Python实现Wordcloud生成词云图的示例

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概. 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前,首先要做一些准备工作 1.安装结巴分词库 pip install jieba Python中的分词模块有很多,他们的功能也都是大同小异,我们安装的结巴分词 是当前使用的最多的类型. 下面我来简单介绍一下结巴分词的用法 结巴分词的分词模式分为三种: (1)全模式:把句子中所有的可以成词的词语都扫描出

python根据文本生成词云图

python根据文本生成词云图 效果 代码 from wordcloud import WordCloud import codecs import jieba #import jieba.analyse as analyse from scipy.misc import imread import os from os import path import matplotlib.pyplot as plt from PIL import Image, ImageDraw, ImageFont

Python -WordCloud安装、词云制作

一.WordCloud 安装 说明:Windows系统直接pip install wordcloud 是不行的,命令行会报错. 第一步:检查自己的Python 版本.Win+R ——>CMD——>命令行输入python,我的是python 3.7 win32位的 第二步:下载对应版本的WordCloud,进入 python 扩展包库 (非正式第三方whl文件包)下载 第三步:安装.命令行先定位到下载的wordcloud安装文件路径,再输入 pip install wordcloud-1.6.0

python成长之路第三篇(1)_初识函数

目录: 函数 1.为什么要使用函数 2.什么是函数 3.函数的返回值 4.文档化函数 5.函数传参数 文件操作(二) 1.文件操作的步骤 2.文件的内置方法 函数: 一.为什么要使用函数 在日常写代码中,我们会发现有很多代码是重复利用的,这样会使我们的代码变得异常臃肿,比如说: 我们要写一个验证码的功能 例子: 比如说我们要进行一些操作,而这些操作需要填写验证码 验证码代码:  1 import random   2 number_check = ''   3 for i in range(0,

我的Python成长之路---第一天---Python基础(1)---2015年12月26日(雾霾)

2015年12月26日是个特别的日子,我的Python成之路迈出第一步.见到了心目中的Python大神(Alex),也认识到了新的志向相投的伙伴,非常开心. 尽管之前看过一些Python的视频.书,算是有一点基础.但在这里我要保持空杯心态,一切从头开始.好了不多说,Let's Python!!!! 一.Python简介 Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言.目前Python已经成为实际上除了中国最流行的开发语

用Python绘制红楼梦词云图,竟然发现了这个!

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小说中的词云. 首先当然要导入我们需要用到的包,下面import进来的包,都是我们将在接下来的程序中使用到的包,如果大家还没有安装它们,那么尽快安装它们吧. import jieba import numpy import codecs import pandas import matplotlib.p

【Python成长之路】从零学GUI -- 制作智能聊天机器人

[写在前面] 鹏哥:最近老惹小燕同学不开心,结果都没人陪我聊天了.哎,好无聊呀! 肥宅男:女朋友什么的最无聊了,还没我的图灵机器人好玩. 鹏哥:图灵?好巧,和我部门同名. [效果如下] [实现过程] 1.GUI界面制作,其实和之前的几篇文章一样,没用到什么新的方法或者技巧,因此就不多说了. 2.智能聊天机器人的实现: 其实这块“核心代码”只是调用了对外商用的“图灵机器人”.在偶尔的机会中,看到有这么一个有趣的网站,http://www.turingapi.com/ 因此就申请了个账号(未认证的个

Python成长之路第二篇(1)_数据类型内置函数用法

数据类型内置函数用法int 关于内置方法是非常的多这里呢做了一下总结 (1)__abs__(...)返回x的绝对值 #返回x的绝对值!!!都是双下划线 x.__abs__() <==> abs(x) 例如: #!/usr/bin/python print "abs(-45) : ", abs(-45) print "abs(100.12) : ", abs(100.12) print "abs(119L) : ", abs(119L)

python成长之路第三篇(2)_正则表达式

打个广告欢迎加入linux,python资源分享群群号:478616847 目录: 1.什么是正则表达式,python中得正则简介 2.re模块的内容 3.小练习 一.什么是正则表达式(re) 正则表达式相信很多人都熟悉了,在python中正则表达式的支持是通过re(regular expression)模块,正则表达式是可以匹配文本片段的模式,简单的是正则表达式就是普通的字符串,可以处理字符串.也就是说正则表达式的存在就是来处理文本字符串的 下面来熟悉下正则中的几个概念: 1.通配符 通配符是