用Python和WordCloud绘制词云（内附让字体清晰的秘笈）

环境及模块：

　　Win7 64位

　　Python 3.6.4

　　WordCloud 1.5.0

　　Pillow 5.0.0

　　Jieba 0.39

目标：

　　绘制安徽省2018年某些科技项目的词云，直观展示热点。

思路：

　　先提取项目的名称，再用Jieba分词后提取词汇；过滤掉“研发”、“系列”等无意义的词；最后用WordCloud 绘制词云。

扩展：

　　词云默认是矩形的，本代码采用图片作为蒙版，产生异形词云图。这里用的图片是安徽省地图。

秘笈：

　　用网上的常规方法绘制的词云，字体有点模糊，秘笈在最后点明。

正式开始，Show you the code：

 1 import numpy as np
 2 from PIL import Image
 3 import re
 4 import jieba
 5 from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS
 6 import  matplotlib.pyplot as plt
 7 # http://www.cnblogs.com/hatemath/
 8 # 打开存放项目名称的txt文件
 9 with open(‘content.txt‘,‘r‘,encoding=‘utf-8‘) as f:
10     word= (f.read())
11     f.close()
12
13 # 图片模板和字体
14 image=np.array(Image.open(‘ditu.jpg‘))
15 font=r‘C:\\Windows\\fonts\\msyh.ttf‘
16
17 # 去掉英文，保留中文
18 resultword=re.sub("[A-Za-z0-9\[\`\~\!\@\#\$\^\&\*\(\)\=\|\{\}\‘\:\;\‘\,\[\]\.\<\>\/\?\~\。\@\#\\\&\*\%]", "",word)
19 wordlist_after_jieba = jieba.cut(resultword)
20 wl_space_split = " ".join(wordlist_after_jieba)
21
22 # 设置停用词
23 sw = set(STOPWORDS)
24 sw.add("研发")
25 sw.add("系列")
26 sw.add("这里不多写了，根据自己情况添加")
27
28 # 关键一步
29 my_wordcloud = WordCloud(scale=4,font_path=font,mask=image,stopwords=sw,background_color=‘white‘,
30                          max_words = 100,max_font_size = 60,random_state=20).generate(wl_space_split)
31
32 #显示生成的词云
33 plt.imshow(my_wordcloud)
34 plt.axis("off")
35 plt.show()
36
37 #保存生成的图片
38 my_wordcloud.to_file(‘result.jpg‘)

其中 ditu.jpg 为安徽省轮廓图片：

运行结果：

可以看到，智能设备、施工工法、系统平台、电缆、机器人等都是出现较多的词汇。

最后是秘笈揭晓时间：

　　为什么我这张图如此清晰？打开原图可以看到，这图的分辨率是1800*2500。你用网上的大多数代码，最后生成的图，尺寸很小，上面字迹边缘模糊。

　　关键在于调用WordCloud时的一个参数，回放一下代码：

1 # 关键一步
2 my_wordcloud = WordCloud(scale=4,font_path=font,mask=image,stopwords=sw,background_color=‘white‘,
3                          max_words = 100,max_font_size = 60,random_state=20).generate(wl_space_split)

　　第一个参数我写的是 scale=4，这个数值越大，产生的图片分辨率越高，字迹越清晰。你可以调到64试试，我希望你的电脑足够快 /笑哭

本文由hATEmATH原创转载请注明出处：http://www.cnblogs.com/hatemath/

原文地址：https://www.cnblogs.com/hatemath/p/10238145.html

时间： 2024-10-30 00:35:25

用Python和WordCloud绘制词云（内附让字体清晰的秘笈）的相关文章

使用python绘制词云

最近在忙考试的事情,没什么时间敲代码,一个月也没几天看代码,最近看到可视化的词云,看到网上也很多这样的工具, 但是都不怎么完美,有些不支持中文,有的中文词频统计得莫名其妙.有的不支持自定义形状.所有的都不能自定义颜色于是网上找了一下,决定用python绘制词云,主要用到的是wordcloud库,安装只需要pip isntall wordcloud就行, 数据用的是酒店评论的数据,代码如下: # -*- coding: utf-8 -*- import matplotlib.pyplot as

爬取微信公众号内容——绘制词云

写在前面的话前段时间写了一篇通过搜狗引擎获取微信公众号的文章,最近又看了一个网易云歌词绘制词云的程序然后我就想,能否把这两者结合起来呢还好经历几多波折终于把这个东西给弄出来了. 其实中间的实现不是很难, 关键是环境搭建实在是太困难了好了,先把代码以及效果图奉献上吧代码 weixin_spider.py #!/usr/bin/python # coding: utf-8 #这三行代码是防止在python2上面编码错误的,在python3上面不要要这样设置 import sys reloa

Python实现Wordcloud生成词云图的示例

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概. 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前,首先要做一些准备工作 1.安装结巴分词库 pip install jieba Python中的分词模块有很多,他们的功能也都是大同小异,我们安装的结巴分词是当前使用的最多的类型. 下面我来简单介绍一下结巴分词的用法结巴分词的分词模式分为三种: (1)全模式:把句子中所有的可以成词的词语都扫描出

Matplotlib学习---用wordcloud画词云（Word Cloud）

画词云首先需要安装wordcloud(生成词云)和jieba(中文分词). 先来说说wordcloud的安装吧,真是一波三折.首先用pip install wordcloud出现错误,说需要安装Visual C++ 14.0.折腾半天安装好Visual C++后,还是不行,按网上指点,下载第三方包安装(https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud).安装是成功了,可是在anaconda里导入的时候又出现了问题,说是"no module

Python给小说做词云

闲暇时间喜欢看小说,就想着给小说做词云,展示小说的主要内容.开发语言是Python,主要用到的库有wordcloud.jieba.scipy.代码很简单,首先用jieba.cut()函数做分词,生成以空格分割的字符串,然后新建WordCloud类,保存为图片. 1 #coding:utf-8 2 import sys 3 import jieba 4 import matplotlib.pyplot as plt 5 from wordcloud import WordCloud,ImageCo

python生成职业要求词云

接着上篇的说的,爬取了大数据相关的职位信息,http://www.17bigdata.com/jobs/. # -*- coding: utf-8 -*- """ Created on Thu Aug 10 07:57:56 2017 @author: lenovo """ from wordcloud import WordCloud import pandas as pd import numpy as np import matplotli

【python数据挖掘】使用词云分析来分析豆瓣影评数据

概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果数据:使用爬取的豆瓣影评数据第一步:引入依赖库 # 1.表格库 import csv # 2.jieba分词器 import jieba # 3.算法运算库 import numpy # 4.图像库 from PIL import Image # 5.词云库 from wordcloud import WordCloud 第

Python 绘制词云

文本内容:data(包含很多条文本) 1.分词: import jieba data_cut = data.apply(jieba.lcut) 2.去除停用词: stoplist.txt:链接:https://pan.baidu.com/s/1lN1J8aUFOwqXpYMzuqVA7w 提取码:nk7z with open(r'D:\数据文件\stoplist.txt', encoding='utf-8') as f: txt = f.read() stop = txt.split() st

将QQ聊天记录创建为词云

1. 导出并清洗qq聊天记录将qq聊天记录从电脑版qq导出去掉聊天中的图片表情以及时间戳具体代码如下: def Pretreatment(): with open("未处理的聊天记录文件路径","r") as readfile: with open("处理后的聊天记录文件路径","at") as writefile: while True: line = readfile.readline() if line is ''