使用python绘制词云

最近在忙考试的事情，没什么时间敲代码，一个月也没几天看代码，最近看到可视化的词云，看到网上也很多这样的工具，

但是都不怎么完美，有些不支持中文，有的中文词频统计得莫名其妙、有的不支持自定义形状、所有的都不能自定义颜色

于是网上找了一下，决定用python绘制词云，主要用到的是wordcloud库，安装只需要pip isntall wordcloud就行，

数据用的是酒店评论的数据，代码如下：

# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
import pickle
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
import jieba
# import codecs

# fin = codecs.open(‘HotelComments.txt‘,mode = ‘r‘, encoding = ‘utf-8‘)
# print fin.read()

# 第一次运行程序时将分好的词存入文件
# text = ‘‘
# with open(‘HotelComments.txt‘) as fin:
#     for line in fin.readlines():
#         line = line.strip(‘\n‘)
#         text += ‘ ‘.join(jieba.cut(line))
#         text += ‘ ‘
# fout = open(‘text.txt‘,‘wb‘)
# pickle.dump(text,fout)
# fout.close()

# 直接从文件读取数据
fr = open(‘text.txt‘,‘rb‘)
text = pickle.load(fr)

backgroud_Image = plt.imread(‘girl.jpg‘)
wc = WordCloud( background_color = ‘white‘,    # 设置背景颜色
                mask = backgroud_Image,        # 设置背景图片
                max_words = 2000,            # 设置最大现实的字数
                stopwords = STOPWORDS,        # 设置停用词
                font_path = ‘C:/Users/Windows/fonts/msyh.ttf‘,# 设置字体格式，如不设置显示不了中文
                max_font_size = 50,            # 设置字体最大值
                random_state = 30,            # 设置有多少种随机生成状态，即有多少种配色方案
                )
wc.generate(text)
image_colors = ImageColorGenerator(backgroud_Image)
wc.recolor(color_func = image_colors)
plt.imshow(wc)
plt.axis(‘off‘)
plt.show()

效果图：

自定义词云形状：

参考博客：

http://blog.csdn.net/tanzuozhev/article/details/50789226

http://blog.csdn.net/qq_16912257/article/details/52458515

时间： 2024-10-12 16:34:54

使用python绘制词云的相关文章

Python 绘制词云

文本内容:data(包含很多条文本) 1.分词: import jieba data_cut = data.apply(jieba.lcut) 2.去除停用词: stoplist.txt:链接:https://pan.baidu.com/s/1lN1J8aUFOwqXpYMzuqVA7w 提取码:nk7z with open(r'D:\数据文件\stoplist.txt', encoding='utf-8') as f: txt = f.read() stop = txt.split() st

用Python和WordCloud绘制词云（内附让字体清晰的秘笈）

环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点. 思路: 先提取项目的名称,再用Jieba分词后提取词汇:过滤掉"研发"."系列"等无意义的词:最后用WordCloud 绘制词云. 扩展: 词云默认是矩形的,本代码采用图片作为蒙版,产生异形词云图.这里用的图片是安徽省地图. 秘笈: 用网上的常规方法绘制的词云,字体有

爬取微信公众号内容——绘制词云

写在前面的话前段时间写了一篇通过搜狗引擎获取微信公众号的文章,最近又看了一个网易云歌词绘制词云的程序然后我就想,能否把这两者结合起来呢还好经历几多波折终于把这个东西给弄出来了. 其实中间的实现不是很难, 关键是环境搭建实在是太困难了好了,先把代码以及效果图奉献上吧代码 weixin_spider.py #!/usr/bin/python # coding: utf-8 #这三行代码是防止在python2上面编码错误的,在python3上面不要要这样设置 import sys reloa

基于Python实现词云制作

1 第三方库的安装与简介 1.1 Python第三方库 jieba(中文分词) 1. 特点 (1)支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词. (2)支持繁体分词 (2)支持自定义词典 (3)MIT 授权协议 2. 安装和使用说明 pip install jieba / pip3 install jieba

python生成词云

期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感. 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如<倔强>,海阔天空是,什么的大家熟悉的. 所要用到的python库有 jieba(一个中文分词库).wordcould .matplotlib.PIL.numpy. 首先我们要做的是读取歌词.我将歌词存在了文件目录下励志歌曲文本中. 现在来读取他 #encoding=gbk l

python做词云（WordCloud）

python做词云 (WordCloud) 1. 安装某个教程给出的方法,到[这里][1]下载相应的wordcolud,然后到相应目录pip安装. 其实直接 pip install wordcloud 就ok了 ,进入python. import wordcloud成功即可. ##2. 文档简要说明可以看到文档主要就3个主要的函数,目前主要介绍WordCloud模块以及相关的函数. WordCloud() class wordcloud.WordCloud(font_path=None, w

Python数据挖掘-词云

词云绘制 1.语料库的搭建.分词来源.移除停用词.词频统计使用方法:os.path.join(path,name) #连接目录与文件名或目录结果为path/name import os import os.path import codecs filePaths=[] fileContents=[] for root,dirs,files in os.walk("D:\\Python\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.4\\SogouC.mini\\Sam

Python数据挖掘-词云美化

1.语料库构建由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件: 只需使用codecs.open()打开相应的文件,(记得close): 然后使用jieba模块中的load_userdict()方法导入词库 import jieba import numpy import codecs import pandas file=codecs.open( "C:\\Users\\Jw\\Desktop\\python_work\\Python数据挖掘实战课程

如何用Python做词云（收藏）

看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图.当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫.不过不要紧,好的开始是成功的一半嘛.食髓知味,后面你就可以自己升级技能,进入你开挂的成功之路. 网上教你做信息图的教程很多.许多都是利用了专用工具.这些工具好是好,便捷而强大.只是它们功能都太过专一,适用范围有限.今天我们要尝试的,是用通用的编程语言Python来做词云. Python是一种时下很流行的编程语言.你不仅