做大数据分析的怎么可以不会这个?


Overview:
0 引言
1 环境
2 模块准备
3 实现思路
4 小试牛刀
5 中试牛刀
6 总结

0 引言

词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文章的主旨。

1 环境

操作系统:Windows

Python版本:3.7.2

2 模块准备

本文涉及到的Python第三方模块,共计四个:分词模块jieba,文字云模块wordcloud,画图模块matplotlib,用来处理背景图片的模块scipy。这些模块均可通过pip方式进行安装:

模块的导入:

3 实现思路

准备好一份自己需要分析的文本材料,这里选用的是19年两会新鲜出炉的政府工作报告。我们首先得通过jieba模块对文本材料进行分词处理,然后对处理后的材料使用wordcloud文字云模块生成相应的词云图片即可。

当然了你可以选择一个背景图片,并以此为基础生成特定的云图,这时就用到了上面提到的另外两个模块scipy和matplotlib。

好了,思路有了,那就开始实践吧~

4 小试牛刀

小试牛刀章节教你仅用9行代码,来生成一个词云图,先欣赏下最终的效果图。

4.1 效果图

4.2 代码实现

制作云图的思路,上文已作说明,这些就不再赘述了,直接看代码,代码中已添加详细注释说明。

除去注释、导入模块占用的两行,剩下仅7行的代码,你来说说Python强大不?

小试牛刀不够牛?上面做出的云图不够完美?那就继续看下去,这里来实现一个定制图案的云图。

5 中试牛刀

我们这里有一张祖国地图,是否可以定制生成一个祖国版图样式的词云图呢?

答案是肯定的,只因为Python太强大,实现思路直接看代码。

5.1 代码实现


5.2 效果图

6 总结

是不是又被强大的Python给震撼了?如引言所述,通过生成词云图,对文章中出现频率较高的“关键词”予以视觉化的展现,帮助读者快速领略文章的主旨,既方便又高效!

不过呢,不要高兴地太早,这里给大家暗暗地埋了几颗雷,词云图功能强大实用自不必说,但是若想正常的用起来,除了上面提到的在安装wordcloud模块时会遇到麻烦之外,还有更多的麻烦在等着大家。请关注后续Python排错集的系列文章。

关注公众号「Python专栏」,后台回复:zsxq09,获取本文全套代码

原文地址:https://www.cnblogs.com/moonhmily/p/10651508.html

时间: 2024-10-08 08:46:44

做大数据分析的怎么可以不会这个?的相关文章

做大数据分析研究的常用软件工具与其应用场景

做大数据分析研究的常用软件工具与其应用场景 实际进行大数据研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索. 如今,大数据日益成为研究行业的重要研究目标.面对其高数据量.多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对. 工欲善其事,必先利其器.众多新的软件分析工具作为深入大数据洞察研究的重要助力, 也成为数据科学家所必须掌握的知识技能. 然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具.实际进行大数据研究过程中,需

Cognos做大数据分析也可以棒棒哒

大数据开辟了业务分析的新时代,使得企业基于更大范围数据(包括传统数据仓库.社交媒体.个人文本数据等)分析以制定更明智的决策变为可能.Cognos BI对Hadoop.分析数据存储和实时流数据等大数据源提供更广泛的支持,帮助企业获取更完整的业务视图并依据洞察迅速采取行动. Cognos从10.2.x版本开始提供了对各类大数据平台的支持 IBM 是业界唯一一家提供了从大数据底层平台到前端展现分析所涉及的全部技术和产品的厂商.在如火如荼的大数据分析领域中,IBM Cognos BI依然保持了领导者的风

使用分布式数据库集群做大数据分析之OneProxy

一.十亿数据,轻松秒出 实时监控领域有两个显著的特点,一是数据来源很多而且数据量大,有来自监控摄像头.GPS.智能设备等:二是需要实时处理.我们的客户在做实时处理时,就遇到这样的问题.客户的某个数据表中有10亿条记录,希望统计类查询的响应时间在30s以内,而使用单台MySQL的响应时间在300s以上.OneProxy特有的并行查询功能,让响应时间降到10s以内. 二.并行查询前提之分库分表 在互联网+的时代,分库分表已经成为行业的标准解决方案之一.在众多应用中,数据每天都以GB级别递增,其中若干

技术培训 | 大数据分析处理与用户画像实践

孔淼:大数据分析处理与用户画像实践 直播内容如下: 今天咱们就来闲聊下我过去接触过的数据分析领域,因为我是连续创业者,所以我更多的注意力还是聚焦在解决问题和业务场景上.如果把我在数据分析的经验进行划分的话,刚好就是我所经历的两次创业阶段,第一阶段是"第三方数据分析",第二阶段是"第一方数据分析".所以今天咱们就从这两点来谈谈数据分析. 第三方数据分析 先聊聊"第三方数据分析",这个主要结缘于我给开复做微博数据挖掘. 起因:给开复做"微博

做大数据时代的“淘宝”平台,IBM数据分析战略浮出水面

(上图为IBM研究人员在展示通过数据分析提高城市交通水平) 下个世纪是大数据的世纪,是从IT走向认知计算的时代.在IT时代成就了一家超级平台,这就是淘宝,而认知时代要做的是数据的生意,那是否有一个类似淘宝的超级数据平台呢?IBM正在做这件事情. IBM在全球布局了40多个基于Softlayer的数据中心,以Bluemix作为其主力云端开发平台, 在之上通过合作和收购网罗了从Twitter到The Weather Company以及这些年投入250亿美金收购的Cognos.SPSS.ILOG.Al

大数据分析案例

部分数据来源于网络,如有侵权请告知. 一.大数据分析在商业上的应用 1.体育赛事预测 世界杯期间,谷歌.百度.微软和高盛等公司都推出了比赛结果预测平台.百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%.现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控. “在百度对世界杯的预测中,我们一共考虑了团队实力.主场优势.最近表现.世界杯整体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联网,随后我们再利用一个由搜索专家设计的机

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析.CSDN在此编译.整理. 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机

《大数据分析中的计算智能研究现状与发展》—— 读后感

<大数据分析中的计算智能研究现状与发展>这篇文章是郭平.王可.罗阿理.薛明志发于2015年11月发表于软件学报. 该篇文章讨论了大数据分析中计算智能研究存在的问题和进一步的研究方向,阐述了数据源共享问题,并建议利用以天文学为代表的数据密集型基础科研领域的数据开展大数据分析研究.  大数据和人工智能是现代计算机技术应用的重要分支,近年来这两个领域的研究相互交叉促进,产生了很多新的方法.应用和价值.大数据和人工智能具有天然的联系,大数据的发展本身使用了许多人工智能的理论和方法,人工智能也因大数据技

BuzzSumo:什么样的文章能获得疯转?(基于1亿篇文章大数据分析)

BuzzSumo:什么样的文章能获得疯转?(基于1亿篇文章大数据分析) 社交媒体追踪服务分析工具BuzzSumo,2014年5月前后对社交媒体上超过1亿篇文章进行了分析,试图找出一个答案: 什么样的内容才能让用户乐于分享,获得病毒式传播? 这个大问题又内含或细分为一些小问题: ◆那些获得疯转的文章,激起了用户哪种情绪? ◆清单?图表?哪类文章更有可能被用户分享? ◆读者更喜欢分享短文章还是长文章?社交媒体上的文章,最理想的长度是怎样的? ◆“信任”是不是驱动用户分享文章的一个主要因素? ◆文章有