Python的jieba模块简介

现如今，词云技术遍地都是，分词模块除了jieba也有很多，主要介绍一下jieba的基本使用

import jieba
import jieba.posseg as psg
from os import path
from collections import Counter

s=u‘我想和女朋友一起去北京天安门闲逛。。‘

cut = jieba.cut(s)

print(‘精确模式‘)
print(cut)
print(‘,‘.join(cut))

print (‘全模式‘)
print(‘,‘.join(jieba.cut(s,cut_all = True)))

print(‘搜索引擎模式‘)
print(‘,‘.join(jieba.cut_for_search(s)))

print(‘词性‘)
print([(x.word,x.flag) for x in psg.cut(s)])
print([(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith(‘n‘)])

print(‘--*--‘*10)
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode:", "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode:", "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

d=path.dirname(__file__)
sanguo_text=open(path.join(d,"data//sanguo.txt"),encoding=‘utf-8‘).read()
print(len(sanguo_text))

sanguo_words = [x for x in jieba.cut(sanguo_text) if len(x) >= 2]
c = Counter(sanguo_words).most_common(20)
print(c)

运行结果

其中精确模式比较好用，全模式就是尽量将所有的词拿出来

原文地址：https://www.cnblogs.com/yuxuanlian/p/9781792.html

时间： 2024-11-03 18:16:19

Python的jieba模块简介的相关文章

以写代学：python 模块简介&输出用户指定位数密码的脚本

什么是模块 (1)模块是从逻辑上组织python代码的形式 (2)当代码量变的相当大的时候,最好把代码分成一些有组织的代码段,前提是保证它们的彼此交互 (3)这些代码段之间有一定的联系,可能是一个包含数据成员和方法的类,也可能是一组相关但彼此独立的操作函数 (4)模块名不能乱起,字母数字下划线组成,首字母不能是数字导入模块 (1)使用import导入模块,模块被导入后,程序会自动生成pyc的字节码文件以提升性能 (2)模块属性通过"模块名.属性"的方法调用,如果仅需要模块中的某些属性

简介Python的collections模块中defaultdict类型

这里我们来简介Python的collections模块中defaultdict类型的用法,与内置的字典类最大的不同在于初始化上,一起来看一下: defaultdict 主要用来需要对 value 做初始化的情形.对于字典来说,key 必须是 hashable,immutable,unique 的数据,而 value 可以是任意的数据类型.如果 value 是 list,dict 等数据类型,在使用之前必须初始化为空,有些情况需要把 value 初始化为特殊值,比如 0 或者 ''. from c

Kemaswill 机器学习数据挖掘推荐系统 Python optparser模块简介

Python optparser模块简介原文地址:https://www.cnblogs.com/ppybear/p/12350129.html

进阶第一课 Python模块简介

一.前面我们说过,Python自从出世以来,就是免费.开放的.如今造就了数目庞大的模块.那么问题来了,模块是什么? 对于Python而言,模块是若干功能的集合. 一个模块有自己的属性,就像一个人有自己的姓名.身高.体重.性别... 一个模块也有自己的方法.所谓方法,就是这个模块能做的事情.举个栗子-_-!! 1 import time 2 a=time.time() 3 print(a) 分析一下: 1)既然是模块,就只有在导入(有的模块需要自行安装,还涉及包依赖,以后会讲到).格式是:impo

Python 模块简介 -- functools

Python 的 functools 模块可以说主要是为函数式编程而设计,用于增强函数功能. functools.partial 用于创建一个偏函数,它用一些默认参数包装一个可调用对象,返回结果是可调用对象,并且可以像原始对象一样对待,这样可以简化函数调用.实际上 partial 相当于一个高阶函数,其大致的实现如下(实际在标准库中它是用 C 实现的): def partial(func, *args, **keywords): def newfunc(*fargs, **fkeywords):

中文自然语言处理(NLP)(一)python jieba模块

1.jieba分词的安装直接在cmd窗口当中pip install即可 2.jieba分词的介绍 jieba分词是目前比较好的中文分词组件之一,jieba分词支持三种模式的分词(精确模式.全模式.搜索引擎模式),并且支持自定义词典(这一点在特定的领域很重要,有时候需要根据领域的需要来添加特定的词典以提高分词结果的质量).支持繁体字分词 3.jieba分词三种分词模式及使用例子 jieba分词模块的主要方法是jieba.cut(),精确模式和全模式的区别主要在于其中的参数不同 (1)精确模式:将

python之路模块，序列化，迭代器，生成器

一.模块 1.模块简介模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py.模块可以被别的程序引入,以使用该模块中的函数等功能.这也是使用python标准库的方法. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才能完成(函数又可以在不同的.py文件中),n个 .py 文件组成的代码集合就称为模块. 2.模块的引入在Python中用关键字import来引入某个模块,比如要引用模

【Python】用Python的“结巴”模块进行分词

之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的"结巴"模块进行分词,感觉非常方便.这里将我写的一些小程序分享给大家,希望对大家有所帮助. 下面这个程序是对一个文本文件里的内容进行分词的程序:test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块 def splitSentence(inputFile, outputFile): fin = open(input

python 正则表达式 re模块基础

简介正则表达式(regular expression)是可以匹配文本片段的模式.最简单的正则表达式就是普通字符串,可以匹配其自身.比如,正则表达式 'hello' 可以匹配字符串 'hello'. 要注意的是,正则表达式并不是一个程序,而是用于处理字符串的一种模式,如果你想用它来处理字符串,就必须使用支持正则表达式的工具,比如 Linux 中的 awk, sed, grep,或者编程语言 Perl, Python, Java 等等. 正则表达式有多种不同的风格,下表列出了适用于 Python