jieba库的使用

jieba库的使用:

jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分.

jieba的使用

# -*- coding: utf-8 -*-
import jieba

seg_str = "好好学习,天天向上。"

print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 ‘cut_all=True‘ 指定 
print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

jieba库对英文单词的统计

# -*- coding: utf-8 -*-

def get_text():
txt = open("1.txt", "r", encoding=‘UTF-8‘).read()
txt = txt.lower()
for ch in ‘!"#$%&()*+,-./:;<=>[email protected][\\]^_‘{|}~‘:
txt = txt.replace(ch, " ") # 将文本中特殊字符替换为空格
return txt

file_txt = get_text()
words = file_txt.split() # 对字符串进行分割,获得单词列表
counts = {}

for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word, 0) + 1

items = list(counts.items()) 
items.sort(key=lambda x: x[1], reverse=True)

for i in range(5):
word, count = items[i]
print("{0:<5}->{1:>5}".format(word, count))

词云的制作

完成安装jieba , wordcloud ,matplotlib

(1)打开taglue官网,点击import words,把运行的结果copy过来。
(2)选择形状,在这里是网上下载的图片进行的导入。
(3)选择字体。
(4)点击Visualize生成图片。

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba

def create_word_cloud(filename):
    text = open("哈姆雷特.txt".format(filename)).read()

    wordlist = jieba.cut(text, cut_all=True)
    wl = " ".join(wordlist)

    wc = WordCloud(
        background_color="black",
        max_words=2000,
        font_path=‘simsun.ttf‘,
        height=1200,
        width=1600,
        max_font_size=100,
        random_state=100,
    )

    myword = wc.generate(wl)
    plt.imshow(myword)
    plt.axis("off")
    plt.show()
    wc.to_file(‘img_book.png‘)

if __name__ == ‘__main__‘:
    create_word_cloud(‘mytext‘)



原文地址:https://www.cnblogs.com/zhoukun520/p/10649666.html

时间: 2024-10-07 20:39:15

jieba库的使用的相关文章

python 读写txt文件并用jieba库进行中文分词

python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt' fn=open(file,"r") print fn.read() fn.close() 在控制台输出txt文档的内容,注意中文会在这里乱码.因为和脚本文件放在同一个地方,我就没写路径了. 还有一些别的操作. 这是文件open()函数的打开mode,在第二个参数中设置.特别需要注意一下.具体还有一些别的细节操作. http://www.jb51

jieba库词频统计练习

在sypder上运行jieba库的代码: import matplotlib.pyplot as pltfracs = [2,2,1,1,1]labels = 'houqin', 'jiemian', 'zhengjiehong','baogan','dadaima'explode = [ 0,0,0,0,0]plt.axes(aspect=1)plt.pie(x=fracs, labels=labels, explode=explode,autopct='%3.1f %%', shadow=T

优秀的中文分词jieba库

jieba库的简介 jieba是优秀的中文分词库,中文文本需要通过分词来获的单个词语.jieba库提供了三种分词模式:精确模式,全模式,搜索引擎模式.精确模式是将文本精确割分,不存在冗余.全模式是将文本中所有可能单词都扫描出来,存在冗余.搜索引擎模式是将经过精确模式分割下的长词在进行分割. 常见jieba库的函数 原文地址:https://www.cnblogs.com/gzk08-20/p/9216302.html

用jieba库统计文本词频及云词图的生成

一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. jieba库中包含的主要函数如下: jieba.cut(s)                                                               精确模式,返回一个可迭代的数据类型 jieba.cut(s,cut_all=True)                  

jieba库的使用与词频统计

1.词频统计 (1)词频分析是对文章中重要词汇出现的次数进行统计与分析,是文本 挖掘的重要手段.它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势. (2)安装jieba库 安装说明代码对 Python 2/3 均兼容 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba半自动安装:先下载 http://pypi.python.org/pypi/jieba

jieba库使用和好玩的词云

jieba库的使用: (1)  jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据 搜索引擎模式:在精确模式的基础上,对长词再次进行切分. (2).jieba库常用函数 函数 描述 jieba.lcut(s) 精确模式,返回一个列表类型的分词结果>>>jieb

jieba 库的使用和好玩的词云

jieba库的使用: (1)  jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据 搜索引擎模式:在精确模式的基础上,对长词再次进行切分. # -*- coding: utf-8 -*- import jieba seg_str = "好好学习,天天向上."

jieba库

一.jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组:除此之外,jieba 库还提供了增加自定义中文单词的功能. (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析. 全模式:将句子中所以可以成词的词语都扫描出来,速度非常快,但是不能消除歧义. 搜索引擎模式:在精确模式的基础上,对长分词再次切分,提高召回率,适合搜索引擎分词. 二.安装库函数 (1) 在命令行下输

运用jieba库 寻找高频词

一.准备 1.首先 先用cmd 安装 jieba库,输入 pip install jieba 2.其次 本次要用到wordcloud库和 matplotlib库,也在cmd输入pip install matplotlib和pip install wordcloud 二.安装完之后,输入如下代码 1 from wordcloud import WordCloud 2 import matplotlib.pyplot as plt 3 import jieba 4 def create_word_c