词云分析

“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。戈登做过编辑、记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常,这些最新的、最适合网络的传播方式,也是最好的传播方式。词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

在互联网时代,人们获取信息的途径多种多样,大量的信息涌入到人们的视线中。如何从浩如烟海的信息中提炼出关键信息,滤除垃圾信息,一直是现代人关注的问题。在这个信息爆炸的时代,我们每时每刻都要更新自己的知识储备,而网络是最好的学习平台。对信息过滤和处理能力强,学习效率就会得到提高。“词云”就是为此而诞生的。“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的无意义信息,使浏览者只要一眼扫过词云图片就可以领略文章或者网页内容的主旨。不仅如此,一幅制作精美的词云图片,可以起到一图胜千言的效果,在报告或者PPT中适当的使用词云,会使表达更清晰充分,为演讲者表达的意义加分。

嗯。。。就是一堆废话。。。

感觉就是使用视觉刺激的办法,让你一眼就看见我想要表达的信息,而这个信息是突出一段话中出现次数最高的词语。因为一般而言,在一段文字中出现频率最高的那个词总归和你表达意思相关。

from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import numpy
from PIL import Image

txt = open("../文本/十九大报告.txt",‘r‘,encoding="GBK").read()
image = numpy.array(Image.open(‘../图片/党徽.jpg‘))
wc = WordCloud(
    background_color="black",
    font_path="C:/Windows/Fonts/STKAITI.TTF",
    max_font_size=60,
    max_words=3000,
    mask = image,
).generate(txt)
plt.figure(figsize=(10,10))
#重定向颜色
image_color = ImageColorGenerator(image)
plt.imshow(wc.recolor(color_func=image_color))
plt.axis(‘off‘)
plt.show()
#保存图片
wc.to_file("../图片/result_19.jpg")

结果为:

这种方法的分词是根据wordcloud内部自主实现的,我们也可以自主分词完,然后将得到的分词字典和词云结合起来。

from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import numpy
from PIL import Image
import jieba

txt = open("../文本/十九大报告.txt",‘r‘,encoding="GBK").read()
image = numpy.array(Image.open(‘../图片/党徽.jpg‘))
words = jieba.lcut(txt)
counts ={}
excludes = {",",‘。‘,‘!‘,‘:‘,‘“‘,‘”‘,‘、‘,‘的‘,‘和‘,‘\n‘,‘是‘,‘在‘,‘要‘}
for word in words:
    if word in excludes:
        continue
    else:
        counts[word] = counts.get(word, 0) +1

wc = WordCloud(
    background_color="black",
    font_path="C:/Windows/Fonts/STKAITI.TTF",
    max_font_size=60,
    max_words=3000,
    mask = image,
).generate_from_frequencies(counts)
plt.figure(figsize=(10,10))
#重定向颜色
image_color = ImageColorGenerator(image)
plt.imshow(wc.recolor(color_func=image_color))
plt.axis(‘off‘)
plt.show()
#保存图片
wc.to_file("../图片/result_19_2.jpg")

结果是:

对比两个结果,还是不一样的。想要啥效果,自己选呐

原文地址:https://www.cnblogs.com/0422hao/p/11703700.html

时间: 2024-08-30 13:15:31

词云分析的相关文章

词云分析《天龙八部》人物出现次数

一.需要的三方库 1.安装词云: pip install wordcloud 2.安装结巴 pip install jieba 3.安装matplotlib pip install matplotlib 二.实现代码 1 import jieba # 分词函数 2 from scipy.misc import imread # 这是一个处理图像的函数 3 from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator 4 impor

【python数据挖掘】使用词云分析来分析豆瓣影评数据

概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果 数据:使用爬取的豆瓣影评数据 第一步:引入依赖库 # 1.表格库 import csv # 2.jieba分词器 import jieba # 3.算法运算库 import numpy # 4.图像库 from PIL import Image # 5.词云库 from wordcloud import WordCloud 第

红楼梦词云分析

~~~~~~~~~~~~~~~~~~~~步骤~~~~~~~~~~~~~~~~~~~~ ~~    ~~ 1):红楼梦文本 <红楼梦> 曹雪芹 高鄂 著 第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀 列位看官:你道此书从何而来?说起根由,虽近荒唐,细按则深有趣味.待在下将此来历注明,方使阅者了然不惑. 原来女娲氏炼石补天之时,于大荒山无稽崖炼成高经十二丈.方经二十四丈顽石三万六千五百零一块.娲皇氏只用了三万六千五百块,只单单剩了一块未用,便弃在此山青埂峰下.谁知此石自经煅炼之后,灵性已通,因见众石

词云分析之英文

from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.readlines() word_list = [] word_dic = {} for line in text: if re.findall('([a-zA-Z])', line.strip()): result

如何用Python做词云(收藏)

看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图.当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫.不过不要紧,好的开始是成功的一半嘛.食髓知味,后面你就可以自己升级技能,进入你开挂的成功之路. 网上教你做信息图的教程很多.许多都是利用了专用工具.这些工具好是好,便捷而强大.只是它们功能都太过专一,适用范围有限.今天我们要尝试的,是用通用的编程语言Python来做词云. Python是一种时下很流行的编程语言.你不仅

使用Python定制词云

一.实验介绍 1.1 实验内容 在互联网时代,人们获取信息的途径多种多样,大量的信息涌入到人们的视线中.如何从浩如烟海的信息中提炼出关键信息,滤除垃圾信息,一直是现代人关注的问题.在这个信息爆炸的时代,我们每时每刻都要更新自己的知识储备,而网络是最好的学习平台.对信息过滤和处理能力强,学习效率就会得到提高."词云"就是为此而诞生的."词云"是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"

用词云图分析一带一路峰会哪3个词说的最多

前言 最近几日关注度最高的新闻莫过于一带一路峰会相关的消息,会议结束后,一带一路峰会联合公告已经公布出来了.本文通过词云分析,了解本次公告以及习大大在峰会开幕式上主要都讲了哪些关键内容. 1 一带一路峰会联合公告词云图 5月17日公布的一带一路峰会联合公告的词云分析结果图,如下: 词云图上,字体越大表示该词语在文件中出现的次数越多. 从上图可以看出,出现次数最多的3个词语为“合作”.“我们”以及“加强” ,基本可以看出,本次峰会是一个新的起点,今后需要做的事情还很多,需要各方务实合作,哈. 2

[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写

词云,又称文字云.标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客.微博.文章分析等. 除了网上现成的Wordle.Tagxedo.Tagul.Tagcrowd等词云制作工具,在python中也可以用wordcloud包比较轻松地实现(官网.github项目): from wordcloud import WordCloud import matplotlib.pyplot as pl

R系列:分词、去停用词、画词云(词云形状可自定义)

附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b的压缩包是1.46G).包多(是真的多,各路好友会经常上传新的包). R的麻烦之处:经常升级,是经常,非常经常,这就导致你在加载一个包之前需要考虑这个包要在R的哪个版本上才能使用,而往往做一件事情都要加载10个包左右,一般比较方便的做法就是先升级到最新版,因为只有小部分的包在新版本上不能用. 言归正