python第六周:字典,jieba库

字典:

字典类型是“映射”的体现

键值对:键是数据索引的扩展

字典是键值对的集合,键值对之间无序,采用大括号{}和dict()创建,键值对用冒号。表示为

{<键1>:<值1>,<键2>:<值2>, ... , <键n>:<值n>}

在字典变量中,通过键值获取值,如: <值> = <字典变量>[<键>]

>>> d = {"中国":"北京","美国":"华盛顿":"法国":"巴黎"}
>>> d["中国"]
"北京"
>>> de = {} ; type(de)
<class ‘dict‘>#返回变量x的类型

字典类型操作函数和方法

del d[k] 删除字典d中键k对应的数据值
k in d 判断键k是否在字典d中,如果在返回True,否则返回false
d.keys() 返回字典d中所有键信息
d.values() 返回字典d中所有值的信息
d.items() 返回字典d中所有的键值对信息
d.get(k,<default>) 键k存在,返回相应值,不在则返回<default>值
d.pop(k,<default>) 键k存在,则取出相应值,不在则返回<default>值
d.popitem() 随机从字典d中取出一个键值对,以元组形式返回
d.clear() 删除所有键值对
len(d) 返回字典d中元素的个数

jieba库是优秀的中午分词第三方库

cmd命令: pip install jieba

原理: 利用了一个中文词库,确定汉字之间的关联概率

精确模式:把文本精确的分开,不存在冗余单词

全模式:把文本所有可能的词语扫描出来,有冗余

搜索引擎模式:在精确模式的基础上,对长词再次切分

常用函数

jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
jieba/lcut(s,cut_all=Ture) 全模式
jieba.lcut_for_search(s) 搜索引擎模式
jieba.add_word(w) 向分词词典增加新词w

原文地址:https://www.cnblogs.com/mouzaisi/p/12177832.html

时间: 2024-08-30 09:25:30

python第六周:字典,jieba库的相关文章

python 读写txt文件并用jieba库进行中文分词

python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt' fn=open(file,"r") print fn.read() fn.close() 在控制台输出txt文档的内容,注意中文会在这里乱码.因为和脚本文件放在同一个地方,我就没写路径了. 还有一些别的操作. 这是文件open()函数的打开mode,在第二个参数中设置.特别需要注意一下.具体还有一些别的细节操作. http://www.jb51

函数,集合,列表,字典,jieba库知识整理

函数 函数用来:实现一个功能,函数理解成一个工具,遇到问题就可以把这个工具拿过来用 函数的好处: 函数比较方便,复用,可以在多个场景下用 函数定义: def 函数名 (参数) 利用调用函数求解圆的pi def get_pi(num): import random count = 0 for i in range(num): x, y = random.random(), random.random() dist = pow((x - 0) ** 2 + (y - 0) ** 2, 0.5) if

Python第六周 学习笔记(1)

文件操作 打开操作 io.open(file, mode='r', buffering=-1, encoding=None,errors=None, newline=None, closefd=True, opener=None) 返回一个文件对象(流对象)和文件描述符.打开文件失败,则返回异常 基本使用: f = open("test") print(f.read()) f.close() 使用完一定要关闭 文件访问模式分两种:文本模式和二进制模式 open的参数 file 打开或者

python第六周学习类容

面向对象编程: 世界万物,皆可分类 世界万物,对象 只要是对象,就肯定属于某种品类 只要是对象,就肯定有属性 oop编程利用"类"和"对象"来创建各种模型来实现对真实世界的描述,使用面向对象对象编程原因之一是它可以使程序的维护和扩展变得简单,且可以大大提高程序的开发效率,另外,基于面向对象的程序可以使他人更加容易理解你的代码逻辑,从而使团队开发变得从容. 面向对象的核心特性:1.class 类 一个类即是对一类拥有相同属性的对象的抽象.蓝图原型.在类中定义了这些对象

python第六周数据结构类型,集合,序列,元组,列表

集合类型及操作: 集合元素之间无序,每个元素唯一,不存在相同元素,集合元素不可更改,不能是可变数据类型 集合用大括号{}表示,元素间用逗号分隔 建立集合类型用{}或{}(建立空集合类型,必须使用set{}) >>>A = {"python",123,("python",123)} {"python",123,("python",123)} >>>B = set("pypy123&q

python第五周,Pylnstaller库的使用,科赫雪花小包裹

PyInstaller库可以将.py源代码转换成无需源代码的可执行文件: PyInstall库是第三方库,试用前需安装,需在windows的cmd命令行模式输入 pip install pyinstall 参数 描述 -h 查看帮助 --clean 清理打包过程中的临时文件 -D,--onedir 默认值,生成dist文件夹 -F,--onefile 在dist文件夹中之生成独立的打包文件 -i<图标文件名>.ico> 指定打包程序使用的图标文件     实例:科赫雪花小包裹 #Koch

python学习第二周(数据类型、字符串、列表、元祖、字典)

一.模块.库 Python的强大之处在于他有非常丰富和强大的标准库和第三方库,几乎你想实现的任何功能都有相应的Python库支持. 模块初始化:模块就是库,库可以是标准库或者是第三方库. sys模块 os模块 Sys.path 导入模块的时候,先从当前目录下面查找. 我们起名字时候不能和导入的模块名字相同. Python的第三方库 E:\\python_path\\base\\lib\\site-packages Python的标准库位置 E:\\python_path\\base Sys.ar

python实例:利用jieba库,分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序

本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 txt=open("C:\\Users\\Beckham\\Desktop\\python\\倚天屠龙记.txt","r", encoding='utf-8').read() #打开倚天屠龙记文本 words=jieba.lcut(txt) #jieba库分析文本 对数据进行筛选和处理 for word in words:

python jieba库的使用说明

1.jieba库基本介绍 (1).jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语         - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2).jieba分词的原理 Jieba分词依靠中文词库 - 利用一个中文词库,确定汉字之间的关联概率         - 汉字间概率大的组成词组,形成分词结果 - 除了分词,用户还可以添加自定义的词组 2.jieba库使用说明 (1).jie