python3 wordcloud词云

wordclou:根据文本生成词云

一.词云设置

 1 wc=WordCloud(width=400, height=200, #画布长、宽,默认(400,200)像素
 2             margin=1,    #字与字之间的距离
 3             background_color=‘white‘,#背景颜色
 4             min_font_size=3,max_font_size=None,#显示的最小,最大的字体大小
 5             max_words=200,#显示的词的最大个数
 6             ranks_only=None,#是否只是排名
 7             prefer_horizontal=.9,#词语水平方向排版出现的频率0.9(所以词语垂直方向排版出现频率为 0.1 )
 8             mask=None,## 以该参数值作图绘制词云,这个参数不为空时,width和height会被忽略
 9             scale=1, #按照比例进行放大画布
10             color_func=None,#生成新颜色的函数,如果为空,则使用 self.color_func
11             stopwords=(‘Book‘),#设置需要屏蔽的词,如果为空,则使用内置的STOPWORDS
12             random_state=None, # 为每个词返回一个PIL颜色
13             font_step=1, #字体步长,如果步长大于1,会加快运算但是可能导致结果出现较大的误差。
14             mode="RGB",#当参数为“RGBA”并且background_color不为空时,背景为透明
15             relative_scaling=.5, #词频和字体大小的关联性
16             regexp=None,#使用正则表达式分隔输入的文本
17             collocations=True,#是否包括两个词的搭配
18             colormap=None,#给每个单词随机分配颜色
19             normalize_plurals=True,#是否删除词的尾随S之类的
20             font_path="C:/Windows/Fonts/STFANGSO.ttf"  #字体路径
21             )

WordCloud词云设置

二.生成词云

1 fit_words(frequencies)  //根据词频生成词云
2 generate(text)  //根据文本生成词云
3 generate_from_frequencies(frequencies[, ...])   //根据词频生成词云
4 generate_from_text(text)    //根据文本生成词云
5 process_text(text)  //将长文本分词并去除屏蔽词(此处指英语,中文分词还是需要自己用别的库先行实现,使用上面的 fit_words(frequencies) )
6 recolor([random_state, color_func, colormap])   //对现有输出重新着色。重新上色会比重新生成整个词云快很多。
7 to_array()  //转化为 numpy array
8 to_file(filename)   //输出到文件

相关方法

三.基本步骤

 1 import jieba #jieba分词
 2 import matplotlib.pyplot as plt#绘制图形
 3 from scipy.misc import imread#处理图像
 4 from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator#词云
 5
 6 #一.文本获取,利用jieba分词获取文本中的词
 7 file=open(‘test.txt‘,encoding=‘UTF-8‘).read()
 8 word=‘ ‘.join(jieba.cut_for_search(file))
 9
10 #二.词云背景图像获取
11 image=imread(‘test.jpg‘)  # 解析该图片
12
13 #三.词云设置
14 wc=WordCloud(
15     mode=‘RGBA‘,#设置透明底色
16     background_color=None,
17     mask=image, #词云形状设置为背景图像
18     max_words=100,#显示的词的最大个数
19     font_path="C:\\Windows\\Fonts\\STFANGSO.ttf",#设置字体,否则中文可能会出现乱码
20     scale=3#扩大三倍
21 )
22
23 #生成词云
24 image_colors = ImageColorGenerator(image)# 基于背景颜色设置字体色彩
25 wc.generate(word)#根据文本生成词云
26
27 #显示
28 plt.imshow(wc)#显示词云图
29 plt.axis("off")#关闭坐标轴
30 plt.show()#显示窗口
31 wc.to_file(‘test.png‘)# 保存图片

词云

原文地址:https://www.cnblogs.com/yu-liang/p/9210835.html

时间: 2024-10-11 21:04:39

python3 wordcloud词云的相关文章

python爬虫——京东评论、jieba分词、wordcloud词云统计

接上一章,抓取京东评论区内容. url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1' 重点是productId--产品id.page--页码.pageSize:指定

wordcloud词云

借鉴别人的一个小例子,快速生成词云的代码: 1 from wordcloud import WordCloud 2 3 f = open(u'txt/AliceEN.txt','r').read() 4 wordcloud = WordCloud(background_color="white",width=1000, height=860, margin=2).generate(f) 5 6 # width,height,margin可以设置图片属性 7 8 # generate 可

词云wordcloud类介绍&python制作词云图&词云图乱码问题等小坑

词云图,大家一定见过,大数据时代大家经常见,我们今天就来用python的第三方库wordcloud,来制作一个大数据词云图,同时会降到这个过程中遇到的各种坑, 举个例子,下面是我从自己的微信上抓的微信好友签名,制作的词云图:看来用的做多的还是"方得始终"啊 首先我们需要几个库,pip完了导入 1 import chardet #检测字符类型的类 2 from wordcloud import WordCloud #词云库 3 import matplotlib.pyplot as pl

词云绘制wordcloud

wordcloud是优秀的第三方词云展示库,该库以空格为分割线,按照单词出现的频率自动设置字号与颜色实例如下 import wordcloud#词云库 import jieba#分词库 a=open('D:/picture/11.txt','r')#打开一个文本文件,打开方式为r读取 b=a.read()#读取该文件中的内容 a.close()#关闭文件 c=jieba.lcut(b)#将读取的内容进行分词 dd=[] for i in c: if i not in ['.','?',':','

[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写

词云,又称文字云.标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客.微博.文章分析等. 除了网上现成的Wordle.Tagxedo.Tagul.Tagcrowd等词云制作工具,在python中也可以用wordcloud包比较轻松地实现(官网.github项目): from wordcloud import WordCloud import matplotlib.pyplot as pl

用Python词云展示周董唱过的歌,发现内含秘密

马上开始了,你准备好了么 准备工作 环境:Windows + Python3.6 IDE:根据个人喜好,自行选择 模块: Matplotlib是一个 Python 的 2D数学绘图库 1 pip install matplotlib 2 import matplotlib.pyplot as plt jieba中文分词库 1 pip install jieba 2 import jieba wordcloud词云库 1 pip install wordcloud 2 from wordcloud

用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示

最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改 原文链接  http://python.jobbole.com/88325/#comment-94754 #coding:utf-8 from lib2to3.pgen2.grammar import line __author__ = 'hang' import warnings warnings.filterwarnings("ignore") import jieba #分词包

用Python玩转词云

第一步:引入相关的库包: #coding:utf-8 __author__ = 'Administrator' import jieba #分词包 import numpy #numpy计算包 import codecs #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode import pandas import matplotlib.pyplot as plt %matplotlib inline from wordcloud import

selenium爬取新闻做成词云(以及selenium的xpath查找方法)

一开始是想用qq空间说说做词云的,然而qq空间需要用cookies以及其他加密的东西,退而求其次搞搞新闻吧. 直接上代码了 # -*-coding:utf-8 -*- from selenium import webdriver import wordcloud #词云制作器 import jieba#强大的中文分词库 from scipy.misc import imread#读取图片 import time url='https://news.nuist.edu.cn/main.htm' n