python-中文分词统计Xjieba库XWordCloud库

1.中软国际华南区技术总监曾老师还会来上两次课，同学们希望曾老师讲些什么内容？（认真想一想回答）

处理某个沟通或技术性难题时是如何应对与解决的？

2.中文分词

（1）下载一中文长篇小说，并转换成UTF-8编码。

 1 import jieba
 2 novel = open(‘百年孤独.txt‘,‘w‘,encoding=‘utf-8‘)#新“写”一个txt
 3 novel.write(‘‘‘
 4
 5
 6 百年孤独
 7
 8 作者：马尔克斯
 9
10     第一章
11
12 （文本略）
13
14 ‘‘‘)
15 novel.close()
16
17 print(novel)

储存文本，修改编码格式

#使用print()检查确认文本已保存至参数中。

（2）使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。

jieba库安装：

 1 import jieba
 2 novel = open(‘百年孤独.txt‘,‘w‘,encoding=‘utf-8‘)#新“写”一个txt
 3 novel.write(‘‘‘
 4
 5
 6 百年孤独
 7
 8 （文本略）
 9
10 ‘‘‘)
11 novel.close()
12
13 print(novel)
14
15 txt = open(‘百年孤独.txt‘,‘r‘,encoding=‘utf-8‘).read()
16
17 words =list(jieba.cut(txt))#jieba库帮忙分词,且已去除标点符号
18 exp = {‘，‘,‘\n‘,‘.‘,‘。‘,‘”‘,‘“‘,‘：‘,‘…‘,‘ ‘,‘？‘,‘、‘,‘·‘}
19 key=set(words)-exp
20
21 dic = {}#空字典
22
23 for i in key:
24     dic[i]=words.count(i)
25
26 items = list(dic.items())#划分为元组
27
28 items.sort(key=lambda x:x[1],reverse=True)#排序
29
30 for i in range(20):
31     print(items[i])
32
33 novel.close()

中文分词统计1

（3）排除一些无意义词、合并同一词。

 1 import jieba
 2
 3
 4 txt = open(‘百年孤独.txt‘,‘r‘,encoding=‘utf-8‘).read()
 5
 6 words =list(jieba.cut(txt))#jieba库帮忙分词,且已去除标点符号
 7 exp = {‘，‘,‘\n‘,‘.‘,‘。‘,‘”‘,‘“‘,‘：‘,‘…‘,‘ ‘,‘？‘,‘、‘,‘·‘}
 8 key=set(words)-exp
 9
10 dic = {}#空字典
11
12 for i in key:
13     if len(i)>1:
14         dic[i]=words.count(i)
15     else:
16         continue
17
18 items = list(dic.items())#划分为元组
19
20 items.sort(key=lambda x:x[1],reverse=True)#排序
21
22 for i in range(20):
23     print(items[i])
24
25 novel.close()

去除无意义词语

**使用wordcloud库绘制一个词云。

时间： 2024-10-08 19:10:10

python-中文分词统计Xjieba库XWordCloud库的相关文章

Spark 大数据中文分词统计（三） Scala语言实现分词统计

Java版的Spark大数据中文分词统计程序完成之后,又经过一周的努力,把Scala版的Spark 大数据中文分词统计程序也搞出来了,在此分享给各位想学习Spark的朋友. 如下是程序最终运行的界面截图,和Java版差别不大: 如下是Scala工程结构: 当你在工程主类文件WordCounter.scala上单击右键,选择Run As Scala Application: 然后选择唐诗宋词进行分词统计,就会出现前面显示的分词结果. 工程代码已经上传CSDN:http://download.csd

Python中文分词 jieba

三种分词模式与一个参数以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) #jieba.cut返回的是一个生成器,而用jieba.lcut会直接返回list print("Full Mode: " + "/ ".join(seg_list)) # 全模式 seg_list = j

python 中文分词：结巴分词

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法安装(Linux环境) 下载工具包,解压后进入目录下,运行:python setup.py install 模式默认模式,试图将句子最精确地切开,适合文本分析全模式,把句

python中文分词，使用结巴分词对python进行分词

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法安装(Linux环境) 下载工具包,解压后进入目录下,运行:python setup.py i

PyNLPIR python中文分词工具

官网:https://pynlpir.readthedocs.io/en/latest/ github:https://github.com/tsroten/pynlpir NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统. 其主要的功能有中文分词,标注词性和获取句中的关键词. 主要用到的函数有两个: pynlpir.segment(s, pos_tagg

Python 中文文件统计词频 + 中文词云

1. 词频统计: 1 import jieba 2 txt = open("threekingdoms3.txt", "r", encoding='utf-8').read() 3 words = jieba.lcut(txt) 4 counts = {} 5 for word in words: 6 if len(word) == 1: 7 continue 8 else: 9 counts[word] = counts.get(word,0) + 1 10 it

.net 的一个分词系统（jieba中文分词的.NET版本：jieba.NET）

简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba“采用了基于汉字成词能力的HMM模型,使用了Viterb