Python 词云 【中/英】小白简单入门教程

1. 分析

构建词云需要具备:

  • 原料即文章等内容
  • 将内容进行分词
  • 将分词后的内容利用构建词云的工具进行构建
  • 保存成图片

2. 需要的主要模块

  • jieba 中文分词
  • wordcloud 构建词云

3. 模块原理

wordcloud的实现原理

  • 文本预处理
  • 词频统计
  • 将高频词以图片形式进行彩色渲染

jieba的实现原理

  • 进行中文分词(有多种模式)【详情

4. 英文词云

英文分词和构建词云只需要wordcloud模块

具体实现如下:

 1 from wordcloud import WordCloud
 2
 3 string = ‘Importance of relative word frequencies for font-size. With relative_scaling=0, only word-ranks are considered. With relative_scaling=1, a word that is twice as frequent will have twice the size. If you want to consider the word frequencies and not only their rank, relative_scaling around .5 often looks good.‘
 4 font = r‘C:\Windows\Fonts\FZSTK.TTF‘
 5 wc = WordCloud(font_path=font, #如果是中文必须要添加这个,否则会显示成框框
 6                background_color=‘white‘,
 7                width=1000,
 8                height=800,
 9                ).generate(string)
10 wc.to_file(‘ss.png‘) #保存图片

5. 中文分词

具体实现如下:

1 import jieba
2 cut = jieba.cut(text)  #text为你需要分词的字符串/句子
3 string = ‘ ‘.join(cut)  #将分开的词用空格连接

6. 中文词云

中文词云需要jieba和wordcloud模块

具体实现如下:

 1 import jieba
 2 from wordcloud import WordCloud
 3 from PIL import Image
 4 import numpy as np
 5
 6 font = ‘hwkt.ttf‘
 7 content = (open(‘岗位需求.txt‘,‘r‘,encoding=‘utf-8‘)).read()
 8 cut = jieba.cut(content)
 9 cut_content = ‘ ‘.join(cut)
10 img = Image.open(‘22.png‘) # 以什么图片进行显示
11 img_array = np.array(img) # 将图片转换为数组
12
13 wc = WordCloud(
14     background_color=‘white‘,
15     mask=img_array, # 若没有该项,则生成默认图片
16     font_path=font # 中文分词必须有中文字体设置
17 )
18 wc.generate_from_text(cut_content) # 绘制图片
19 wc.to_file(‘new.png‘) # 保存图片

7. 实现效果

英文词云实现效果如下:

中文词云实现效果如下:

原文地址:https://www.cnblogs.com/littlebob/p/9427896.html

时间: 2024-10-09 22:23:30

Python 词云 【中/英】小白简单入门教程的相关文章

NumPy简单入门教程

# NumPy简单入门教程 NumPy是Python中的一个运算速度非常快的一个数学库,它非常重视数组.它允许你在Python中进行向量和矩阵计算,并且由于许多底层函数实际上是用C编写的,因此你可以体验在原生Python中永远无法体验到的速度. NumPy绝对是科学Python成功的关键之一,如果你想要进入Python中的数据科学和/或机器学习,你就要必须学习它.在我看来,NumPy的API设计得很好,所以我们要开始使用它并不困难. 这是一系列关于科学Python的文章中的第二篇,别忘了看看其他

程序员,一起玩转GitHub版本控制,超简单入门教程 干货2

本GitHub教程旨在能够帮助大家快速入门学习使用GitHub,进行版本控制.帮助大家摆脱命令行工具,简单快速的使用GitHub. 做全栈攻城狮-写代码也要读书,爱全栈,更爱生活. 更多原创教程请关注头条号.每日更新.也可以添加小编微信:fullstackCourse.一起交流,获取最新全栈教程信息.因为FQ原因,不能下载客户端的同仁,可以关注后回复“GitHub客户端”获取安装软件. 上篇教程:GitHub这么火,程序员你不学学吗? 超简单入门教程 干货 GitHub概念部分出现了一丝纰漏.为

iBatis简单入门教程

iBatis 简介: iBatis 是apache 的一个开源项目,一个O/R Mapping 解决方案,iBatis 最大的特点就是小巧,上手很快.如果不需要太多复杂的功能,iBatis 是能够满足你的要求又足够灵活的最简单的解决方案,现在的iBatis 已经改名为Mybatis 了. 官网为:http://www.mybatis.org/ 搭建iBatis 开发环境: 1 .导入相关的jar 包,ibatis-2.3.0.677.jar .mysql-connector-java-5.1.6

Swift简单入门教程:30分钟玩转Swift

通常来说,编程语言教程中的第一个程序应该在屏幕上打印“Hello, world”.在 Swift 中,可以用一行代码实现:    println("hello, world") 如果你写过 C 或者 Objective-C 代码,那你应该很熟悉这种形式——在 Swift 中,这行代码就是一个完整的程序.你不需要为了输入输出或者字符串处理导入一个单独的库.全局作用域中的代码会被自动当做程序的入口点,所以你也不需要main函数.你同样不需要在每个语句结尾写上分号. 这个教程会通过一系列编程

GitHub这么火,程序员你不学学吗? 超简单入门教程 【转载】

本GitHub教程旨在能够帮助大家快速入门学习使用GitHub. 本文章由做全栈攻城狮-写代码也要读书,爱全栈,更爱生活.原创.如有转载,请注明出处. GitHub是什么? GitHub首先是个分布式的版本控制库.通过使用git,可以方便的记录代码版本. 因国内外大量著名的项目,都开始搬迁到github.它又可以称为开源代码社区. github还是学习的好地方,学习优秀的代码. 可对其他项目中有bug的地方进行改进提交,集合众人的力量促进软件的优化改善. github何其火热,截至2015年2月

Python简单入门教程helloworld

Python 学习资源 推荐书籍: Python核心编程(第二版)(强烈推荐,建议有一定基础的看,或者看完简明Python教程再看) Python 基础教程 第二版 (入门,没有核心编程好,但也不错) 编写高质量代码:改善Python程序的91个建议 (进阶,有一定基础再看) 书籍下载: Python 教程(部分内容来源于网络, 历时一年多总结整理的,给刚刚入门的学习者的书籍) 如果愿意可以给予一定的赞助以支持此书的继续完善. 下载链接:http://pan.baidu.com/s/1mgifp

用Python词云展示周董唱过的歌,发现内含秘密

马上开始了,你准备好了么 准备工作 环境:Windows + Python3.6 IDE:根据个人喜好,自行选择 模块: Matplotlib是一个 Python 的 2D数学绘图库 1 pip install matplotlib 2 import matplotlib.pyplot as plt jieba中文分词库 1 pip install jieba 2 import jieba wordcloud词云库 1 pip install wordcloud 2 from wordcloud

二级Python词云包安装问题

前言 二级Python第10章<第三方库概览>中介绍了三个库: PyInstaller Jieba WordCloud其中,前两个库是必须掌握的,第三个库是可选学习.因此,编程题中肯定不会出现对于词云库WordCloud的考察要求.但是,从实际应用开发角度讲,这个库是学习时下Python大数据编程必须要掌握的--当然也是比较简单的. 安装问题 在安装WordCloud过程中遇到失败与成功,特别记录于下. 家中机器上的失败安装 遗憾的是,家中笔记本上安装的是WINDOWS 7 32位,且费了很多

[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写

词云,又称文字云.标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客.微博.文章分析等. 除了网上现成的Wordle.Tagxedo.Tagul.Tagcrowd等词云制作工具,在python中也可以用wordcloud包比较轻松地实现(官网.github项目): from wordcloud import WordCloud import matplotlib.pyplot as pl