python词云图与中文分词

2019-12-12中文文本分词和词云图具体功能介绍与学习代码:

import jiebaa="由于中文文本的单词不是通过空格或者标点符号来进行分割"#jieba.lcut()s是最常用的中文分词函数,用于精准模式,即将字符串分割为等量的中文词组,返回结果是列表类型print(jieba.lcut(a))#jieba.lcut(s,cut_all=True):用于全模式,即将字符串所有分词可能均列出来,返回结果是列表类型,冗余性较大,速度很快,但是不能解决歧义的问题print(jieba.lcut(a,cut_all=True))#jieba.lcut_for_search函数主要是返回搜索引擎模式,该模式首先精准执行精确模式,然后再对其中的长词进行进一步的切片获得最终结果print(jieba.lcut_for_search(a))#jieba.add_word()函数主要用来增加jieba库中的内容新的单词jieba.add_word("燕江依")#词云图的绘制import wordcloudimport jieba#英文的词云图生成比较简单,直接可以使用Wordcloud。generate()函数来进行,因为它是按照空格或者标点符号来进行划分t="i like Python,i am studying python"wd=wordcloud.WordCloud().generate(t)   #Wordcloud类函数主要根据空格或者标点来进行划分和分词,主直接生成英文的词云图wd.to_file("test.png")  #生成简单的文本词云图import matplotlib.pyplot as plt#对于中文文本的词云图生成,由于不是空格来进行划分,所以需要进行先中文分词,再将其以空格连接,之后对其进行Wordcloud的generate函数,这样便可以实现中文文本的词云图的生成a="程序设计语言是计算机能够理解和识别用户操作的一种交互体系,它可以按照规则组织计算机指令,是使得计算机进行目的的操作和实现"b=jieba.lcut(a)          #中文文本需要先进行文本分词,在进行空格分隔newtext=" ".join(b)print(newtext)w=wordcloud.WordCloud(font_path="MSYH.TTF").generate(newtext) #font_path="msyh.ttc"词云图的字体设置,需要进行下载w.to_file("python.png")         #词云图的两种显示方式:w.to_file()和plt.imshow(w)plt.imshow(w)plt.axis("off")plt.show()import wordcloudimport imageio   #可以使得词云图的输出和图片的样子一致mask=imageio.imread("孙悟空图片.jpg")with open("文本文档.txt","r") as f:    text=f.read()    wd=wordcloud.WordCloud(background_color="white",\                            width=800,\                            height=600,\                            max_words=200,\                            max_font_size=80,mask=mask,\                            ).generate(text)plt.axis("off")   #关掉坐标轴的显示plt.imshow(wd)wd.to_file("ciyuntu.png")plt.show()

import jiebafrom wordcloud import WordCloudimport matplotlib.pyplot as plt

s1 = """ 在克鲁伊夫时代,巴萨联赛中完成了四连冠,后三个冠军都是在末轮逆袭获得的。在91/92赛季,巴萨末轮前落后皇马1分,结果皇马客场不敌特内里费使得巴萨逆转。一年之后,巴萨用几乎相同的方式逆袭,皇马还是末轮输给了特内里费。在93/94赛季中,巴萨末轮前落后拉科1分。巴萨末轮5比2屠杀塞维利亚,拉科则0比0战平瓦伦西亚,巴萨最终在积分相同的情况下靠直接交锋时的战绩优势夺冠。神奇的是,拉科球员久基奇在终场前踢丢点球,这才有了巴萨的逆袭。"""

s2 = """ 巴萨上一次压哨夺冠,发生在09/10赛季中。末轮前巴萨领先皇马1分,只要赢球就将夺冠。末轮中巴萨4比0大胜巴拉多利德,皇马则与对手踢平。巴萨以99分的佳绩创下五大联赛积分纪录,皇马则以96分成为了悲情的史上最强亚军。"""

s3 = """在48/49赛季中,巴萨末轮2比1拿下同城死敌西班牙人,以2分优势夺冠。52/53赛季,巴萨末轮3比0战胜毕巴,以2分优势力压瓦伦西亚夺冠。在59/60赛季,巴萨末轮5比0大胜萨拉戈萨。皇马巴萨积分相同,巴萨靠直接交锋时的战绩优势夺冠。"""

mylist = [s1, s2, s3]word_list = [" ".join(jieba.cut(sentence)) for sentence in mylist]new_text = ‘ ‘.join(word_list)wordcloud = WordCloud(font_path="MSYH.TTF",background_color="black").generate(new_text)plt.imshow(wordcloud)plt.axis("off")plt.show()

原文地址:https://www.cnblogs.com/Yanjy-OnlyOne/p/12032079.html

时间: 2024-10-10 14:57:27

python词云图与中文分词的相关文章

特朗普退出《巴黎协定》:python词云图舆情分析

1 前言 2017年6月1日,美国特朗普总统正式宣布美国退出<巴黎协定>.宣布退出<巴黎协定>后,特朗普似乎成了“全球公敌”. 特斯拉总裁马斯克宣布退出总统顾问团队 迪士尼董事长离开总统委员会 谷歌等25家大公司联名刊发整版广告:美国不应退出巴黎协定 法国总统马克龙:特朗普宣布退出<巴黎协定>是“错误”之举 …… 在此背景下,本文以python词云图分析的方式来了解下相关情况. 2 特朗普演讲内容分析 首先来看下特朗普宣布退出<巴黎协定>时都说了啥. 特朗普

[python] 使用Jieba工具中文分词及文本聚类概念

声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台.        前面讲述了很多关于Python爬取本体Ontology.消息盒InfoBox.虎扑图片等例子,同时讲述了VSM向量空间模型的应用.但是由于InfoBox没有前后文和语义概念,所以效果不是很好,这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识.        相关文章:        [Python爬虫]

Python词云的中文问题

1 image= Image.open('F:/__identity/course/建模/九寨沟地震/四川地图.jpg') 2 fig = plt.figure(figsize=(20, 16)) 3 graph = np.array(image) 4 wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',mask=graph) # font_path='./fonts/simhei.ttf' 显示中文 5

python学习之 python制作词云图 我的第一张python词云图 python怎么做词云图

首先是思路  针对本文的代码: 注意: 本代码词云图 需要准备 词语内容保存text文件 一个png格式的图片 整体思路: 首先获取需要分析词语的内容保存到一个文件, 然后读取文件. 然后打开一个已有的png图片(其实额可以穿件一个的, 这个代码需要打开已有的), 然后使用参数设置词云图 大小等参数, 图片中填充内容. 然后保存图片文件 再去目录文件下查看图片就已经有了 利用pip安装一些依赖 pip install jieba pip install matplotlib pip instal

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba“采用了基于汉字成词能力的HMM模型,使用了Viterb

jieba中文分词的.NET版本:jieba.NET

简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba“采用了基于汉字成词能力的HMM模型,使用了Viterb

(转)jieba中文分词的.NET版本:jieba.NET

简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba“采用了基于汉字成词能力的HMM模型,使用了Viterb

Elasticsearch之中文分词器插件es-ik

前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1.elasticsearch官方默认的分词插件,对中文分词效果不理想. 比如,我现在,拿个具体实例来展现下,验证为什么,es官网提供的分词插件对中文分词而言,效果差. [[email protected] elasti

中文分词

一周乱谈(第八周) - 中文分词 中文分词 NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色.当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模型,从HMM到CRF,分词精度都在不断提高,下面我就简单介绍下基本的分词算法. 字典匹配 最简单的分词就是基于字典匹配,一个句子“乱谈中文分词”,如果字典中我有这三个