中文词频统计与词云生成

https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

中文词频统计

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新词库,加入所分析对象的专业词汇。

jieba.add_word(‘天罡北斗阵‘)  #逐个添加

jieba.load_userdict(word_dict)  #词库文本文件

参考词库下载地址:https://pinyin.sogou.com/dict/

转换代码:scel_to_text

XiaoShuo = open(r"C:\Users\Administrator\Desktop\青蛙王子.txt",‘r‘,encoding="utf8")
xiaoshuo = XiaoShuo.read()
XiaoShuo.close()
import jieba
jieba.add_word(‘小公主‘)
text = jieba.lcut(xiaoshuo)

5. 生成词频统计

with open(r"C:\Users\Administrator\Desktop\stops_chinese.txt",‘r‘,encoding="utf8")as f:
    stops = f.read().split(‘\n‘)
tokens = [token for token in text if token not in stops]
print(len(tokens),len(text))
cut_text = " ".join(tokens)

6. 排序

ZiDian = {}

for str in tokens:
    if str in ZiDian.keys():
        ZiDian[str] = ZiDian[str] + 1
    else:
        ZiDian[str] = 1

ZiDian = sorted(ZiDian.items(),key=lambda x:x[1],reverse=True)

7. 排除语法型词汇,代词、冠词、连词等停用词。

stops

tokens=[token for token in wordsls if token not in stops]

tokens = [token for token in text if token not in stops]
print(len(tokens),len(text))

8. 输出词频最大TOP20,把结果存放到文件里

for i in ZiDian[0:20]:
    print(i)

9. 生成词云。

from scipy.misc import imread
im = imread(r‘C:\Users\Administrator\Desktop\guaguagua.jpg‘)
mywcl = WordCloud(background_color=‘white‘,mask=im,width=8000,height=4000,margin=2,max_font_size=150,max_words=2000).generate(cut_text)

import matplotlib.pyplot as plt
plt.imshow(mywcl)
plt.axis("off")

plt.show()
mywcl.to_file(r‘C:\Users\Administrator\Desktop\qingwa.png‘)

原文地址:https://www.cnblogs.com/qiannuohan/p/10579842.html

时间: 2024-07-29 23:36:34

中文词频统计与词云生成的相关文章

+中文词频统计及词云制作9-25

1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波. 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码   使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. >>>import jieba >>>lr = open('斗破苍穹第一章.txt','w') >>>lr.write('''大陆名为斗气大陆,大陆上并没有小说中常见的各系魔法,而斗气,才是大陆的唯一主调! 在这片大

中文词频统计及词云制作

  1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 大数据会用到哪些技术? 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. **排除一些无意义词.合并同一词. import jieba fr=open("复活.txt",'r',encoding='utf-8') s=list(jieba.cut(fr.read())) key=set(s) dic={} f

中文词频统计

中文分词 下载一中文长篇小说,并转换成UTF-8编码. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. 排除一些无意义词.合并同一词. 对词频统计结果做简单的解读. import jieba txt=open('111.txt','r',encoding='utf-8').read() words=list(jieba.cut(txt)) keys=set(words) dic={} for w in keys: if len(w)>1: dic[w]=words.count

9-25提出问题和中文词频统计

1.中软国际华南区技术总监曾老师还会来上两次课.希望老师能够讲一下 现在的网络发展和现状,感觉计算机专业是最受欢迎的,但是凭借着每年不断毕业(增多)的人数,我们凭借着什么来跟好比如我们是网工专业,跟学软件班的同学去PK,去取得更好的就业岗位.并且一般现在看到比我们大一届的师兄师姐很多都是(大部分),只是谋求工作,而不能因为是学计算机,就能够谋求到一份好的关系到计算机的工作. 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码. <水浒传>第一百零三回 张管营因妾弟丧身 范节级为表兄医脸

从当当客户端api抓取书评到词云生成

看了好几本大冰的书,感觉对自己的思维有不少的影响.想看看其他读者的评论.便想从当当下手抓取他们评论做个词云.想着网页版说不定有麻烦的反爬,干脆从手机客户端下手好了.果其不然,找到一个书评的api.发送请求就有详情的json返回,简直不要太方便... 要是对手机客户端做信息爬取,建议安装一个手机模拟器. 思路: 在安装好的手机模拟器设置好用来抓包的代理,我用的charles.记得安装证书,不然抓不了https的数据包. 然后安装当当客户端,打开进到书评页面. 然后成功在charles找到了这个接口

实验二-3 Hadoop&amp;Paoding 中文词频统计

  参考教程 在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试) http://zhaolinjnu.blog.sohu.com/264905210.html Lucene3.3.Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本) http://www.360doc.com/content/13/0217/13/11619026_266124504.shtml 庖丁分词在hadoop上运行时的配置问题(采纳了一半,没有按照其所写配置dic属性文件) http://f.da

初学Hadoop之中文词频统计

1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/eclipse /usr/bin/eclipse #使符号链接目录 vim /usr/share/applications/eclipse.desktop #创建一个  Gnome 启动 添加如下代码: [Desktop Entry] Encoding=UTF-8 Name=Eclipse 4.4.2

1.英文词频统2.中文词频统计

1.英文词频统 news=''' Guo Shuqing, head of the newly established China banking and insurance regulatory commission, was appointed Party secretary and vice-governor of the central bank on Monday, according to an announcement published on the People's Bank

中央一号文件中文词频统计并保存到文件中

1 # Author :Zcb 2 3 #中文词频统计 4 import jieba 5 import sys 6 7 f = open("d:/政府工作报告.txt",'r') 8 txt = f.read() 9 f.close() 10 11 d={} 12 ls=jieba.lcut(txt) 13 exclude =['“','”','要','和',',','的','\n','.','.'] #这里是要exclude 的列表,根据需求可灵活改变 14 for w in ls: