Python将文本内容读取分词并绘制词云图

功能:Python将文本内容读取分词并绘制词云图

import matplotlib
import matplotlib.pyplot as plt #数据可视化
import jieba #词语切割
import wordcloud #分词
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #词云,颜色生成器,停止
import numpy as np #科学计算
from PIL import Image #处理图片

def ciyun():
    #打开文本
    with open(‘dancitiao.txt‘,‘r‘,encoding=‘UTF-8‘) as f:  # 打开新的文本转码为utf-8
        textfile= f.read()  #读取文本内容
    wordlist = jieba.cut_for_search(textfile)#切割词语
    space_list = ‘ ‘.join(wordlist) # 链接词语
    backgroud = np.array(Image.open(‘beijin.png‘)) #背景图片,只有黑白图才能按照形状生成词云
    mywordcloud = WordCloud(width=14000, height=2200,
                            background_color=None, mode="RGBA",#背景颜色
                            mask=backgroud, #写字用的背景图,从图片中提取颜色
                            max_words=500, #最大词语数
                            stopwords=STOPWORDS,#停止的默认词语
                            font_path=‘simkai.ttf‘,#源码自带字体
                            max_font_size=200,#最大字体尺寸
                            random_state=50,#随机角度
                            scale=1).generate(space_list) #生成词云
    image_color = ImageColorGenerator(backgroud)#生成词云的颜色
    plt.imshow(mywordcloud) #显示词云
    plt.axis(‘off‘) #关闭坐标(x,y轴)
    plt.savefig(‘cytu.png‘) #保存图片
    plt.show()#显示

def main():
    ciyun()

if __name__ == ‘__main__‘:
    main()

原文地址:https://www.cnblogs.com/lq13035130506/p/12326082.html

时间: 2024-10-10 14:57:36

Python将文本内容读取分词并绘制词云图的相关文章

python对影评进行评论分析,形成词云图

1 # -*- coding:utf-8 -*- 2 ''' 3 抓取豆瓣电影某部电影的评论 4抓取电影 5 网址链接:https://movie.douban.com/subject/26630781/comments 6 为了抓取全部评论需要先进行登录 7 ''' 8 from selenium import webdriver 9 import time 10 import codecs 11 import jieba 12 import jieba.analyse as analyse

python爬虫爬取QQ说说并且生成词云图,回忆满满!

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

Python修改文本内容

将第一行内容改为第二行的内容格式 REPLACE INTO `LogCenterDbName` VALUES (29, 1, 'lt4_his'); REPLACE INTO `LogCenterDbName` VALUES (29, 1, 'loghis_pool1','pjbhislt4'); 原文件 cat file.txt REPLACE INTO `LogCenterDbName` VALUES (14, 0, 'dx1_log'); REPLACE INTO `LogCenterDb

PowerShell控制台输出符号+函数参数类型指定+文本内容读取

There are several ways: Write-Host: Write directly to the console, not included in function/cmdlet output. Allows foreground and background colour to be set. Write-Debug: Write directly to the console, if $DebugPreference set to Continue or Stop. Wri

Python爬虫b站视频弹幕并生成词云图分析

爬虫:requests,beautifulsoup 词云:wordcloud,jieba 代码加注释: 1 # -*- coding: utf-8 -*- 2 import xlrd#读取excel 3 import xlwt#写入excel 4 import requests 5 import linecache 6 import wordcloud 7 import jieba 8 import matplotlib.pyplot as plt 9 from bs4 import Beaut

利用Python imaplib和email模块 读取邮件文本内容及附件内容

#! encoding:utf8 ''' 环境: Win10 64位 Python 2.7.5 参考: http://www.pythonclub.org/python-network-application/email-format http://blog.sina.com.cn/s/blog_4deeda2501016eyf.html ''' import imaplib import email def parseHeader(message): """ 解析邮件首部

[python] 使用Jieba工具中文分词及文本聚类概念

声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台.        前面讲述了很多关于Python爬取本体Ontology.消息盒InfoBox.虎扑图片等例子,同时讲述了VSM向量空间模型的应用.但是由于InfoBox没有前后文和语义概念,所以效果不是很好,这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识.        相关文章:        [Python爬虫]

获取Asset下文本内容和读取图片

1 import android.content.Context; 2 import android.content.res.AssetManager; 3 import android.graphics.Bitmap; 4 import android.graphics.BitmapFactory; 5 6 import java.io.BufferedReader; 7 import java.io.ByteArrayOutputStream; 8 import java.io.IOExce

Python发送多个附件和支持HTML及纯文本内容的 Email 实现

由于工作中经常需要收发电子邮件,例如每日(周)的工作报告,测试报告,监控告警,定时提醒等等,大都已电子邮件的形式发送.本文将实现一个 Python 的电子邮件发送类,支持发送多个附件(目录),HTML或纯文本内容,抄送收件人,多个接收者等功能. 代码实现 #!/usr/bin/env python # -*- coding: utf-8 -*- ''' Copyright (C) 2015 By Thomas Hu. All rights reserved. @author : Thomas H