NLTK读书笔记和实践问题记录

python版本3.4.2:

1、书上的例子是

from nltk.corpus import wordnet as wn

wn.synset(‘car.n.01‘).lemma_names   #获得同义词集

wn.synset(‘car.n.01‘).definition    #获得定义

在3.4.2下执行得到输出:

<bound method Synset.lemma_names of Synset(‘car.n.01‘)>和

<bound method Synset.definition of Synset(‘car.n.01‘)>

可能是版本问题,在上面命令行后加上()即可,即如下:

wn.synset(‘car.n.01‘).lemma_names()

wn.synset(‘car.n.01‘).definition()

2、书上是from urllib import urlopen,但是报错:ImportError: cannot import name ‘urlopen‘;实际原因是python3的库和python2的库的位置不同,这里应该改成:

from urllib.request import urlopen。说道这里,顺便说一下from ... import ...和import的不同,如果使用import,则导入后如果访问这个模块的功能,需要全路径写上,而from ... import呢,访问时就直接写上import后面的即可(可能的意思是这个import的东东是from这里来的)。

3、python idle在backspace删除时总是感觉删除半个byte,有个白框框,可以按住alt键,一次删一个,按ctrl是一次删一个词

4、可能也是python3的缘故,urlopen(url).read()返回的是bytes,而不是str,python中str和bytes转化比较简单,例如bytes--》string,a.decode(encoding="utf-8");string-->bytes,a.encode(encoding="utf8")

5、对于自然语言处理,首先要将文本分词,将标点符号和单词分开,然后再处理

时间: 2024-10-17 18:38:08

NLTK读书笔记和实践问题记录的相关文章

《Docker技术入门与实战》读书笔记与实践

创建支持SSH的服务的镜像 Dockerfile内容 FROM ubuntu MAINTAINER from www.mtian.net by mtiannet RUN echo "deb http://mirrors.aliyun.com/ubuntu/ xenial main restricted" > /etc/apt/sources.list RUN echo "deb http://mirrors.aliyun.com/ubuntu/ xenial-updat

《Effective Java中文版第二版》读书笔记

说明 这里是阅读<Effective Java中文版第二版>的读书笔记,这里会记录一些个人感觉稍微有些重要的内容,方便以后查阅,可能会因为个人实力原因导致理解有误,若有发现欢迎指出.一些个人还不理解的会用斜线标注. 第一章是引言,所以跳过. 第二章 创建和销毁对象 第1条:考虑用静态工厂方法代替构造器 含义 静态工厂方法是指一个返回类的实例的静态方法,例如: public static Boolean valueOf(boolean b) { return b ? Boolean.TRUE :

读书笔记 Week4 2018-3-29

读书笔记 Week 4 <我是一只IT小小鸟> 首先不得不说,这周的个人编程任务占据了我绝大多数的精力.,虽然在接触到题目的第一时间就有了大致的思路,但当我真正上手开始编程的时候,却几乎每写一行代码,就被卡住了,消耗了大量的时间在百度/谷歌/CSDN去寻找相关语句的用法. 在这样的压力下,团队项目可以说是完全停滞了,同样的,也没有太大的精力去读一些量较大的大部头.恰逢老师在群里推荐了<我是一直IT小小鸟>这本书,便下载去读.不得不说,这样一本较为轻松的书籍,很适合在写程序写到头昏脑

《Java并发变成实践》读书笔记---第二章 线程安全性

什么是线程安全性 要编写线程安全的代码,其核心在于要对状态访问操作进行管理,特别是对共享的(Shared)和可变的(Mutable)状态的访问.从非正式的意义上来说,对象的状态是指存储在状态变量(例如实例或静态域)中的数据."共享"意味着变量可以由多个线程同时访问,而"可变"则意味着变量的值在其生命周期内可以发生变化.所以编写线程安全的代码更侧重于如何防止在数据上发生不受控的并发访问. 如果当多个线程访问同一个可变的状态变量时没有使用合适的同步,那么程序就会出现错误

JavaScript 设计模式与开发实践读书笔记 http://www.open-open.com/lib/view/open1469154727495.html

JavaScript 设计模式与开发实践读书笔记 最近利用碎片时间在 Kindle 上面阅读<JavaScript 设计模式与开发实践读书>这本书,刚开始阅读前两章内容,和大家分享下我觉得可以在项目中用的上的一些笔记. 我的 github 项目会不定时更新,有需要的同学可以移步到我的 github 中去查看源码: https://github.com/lichenbuliren/design-mode-notes 1.currying 函数柯里化 currying 又称 部分求值 .一个 cu

进程和程序:编写shell——《Unix/Linux编程实践教程》读书笔记(第8章)

1.Unix shell的功能 shell是一个管理进程和运行程序的程序.所有常用的shell都有3个主要功能: (1)运行程序: (2)管理输入和输出 (3)可编程 shell同时也是带有变量和流程控制的编程语言. 2.Unix的进程模型 一个程序是存储在文件中的机器指令序列,一般它是由编译器将源代码编译成二进制格式的代码.运行一个程序意味着将这些机器指令序列载入内存然后让处理器(CPU)逐条执行.在Unix术语中,一个可执行程序是一些机器指令机器数据的序列.一个进程是程序运行时的内存空间和设

系统调用操作文件——《Unix/Linux编程实践教程》读书笔记

1.who命令通过读系统日志的内容显示当前已经登录的用户. 2.Unix系统把数据存放在文件中,可以通过以下系统调用操作文件: open(filename, how) creat(filename, mode) read(fd, buffer, amt) write(fd, buffer, amt) lseek(fd, distance, base) close(fd) 3.进程对文件的读/写都要通过文件描述符,文件描述符表示文件和进程之间的连接. 4.每次系统调用都会导致用户模式和内核模式的切

《SQL Server企业级平台管理实践》读书笔记——SQL Server如何设置自动增长和自动收缩项

原文:<SQL Server企业级平台管理实践>读书笔记--SQL Server如何设置自动增长和自动收缩项 SQL Server允许用户设置数据库初始值和最大值,可以通过自动增长或者自动收缩进行配置.通过这些配置,我们可以防止数据库空间问题而导致的应用程序修改失败或者SQL Server磁盘空间耗尽的事情发生.一般来讲,如果数据库不是很忙,默认的设置为自动增长,这种方式能够满足大部分的需求.但是在大量并发的情况下,申请数据文件和日志文件增长本身是一件非常消耗系统资源和影响性能的工作.所以如果

《SQL Server企业级平台管理实践》读书笔记——SQL Server中收缩数据库不好用的原因

原文:<SQL Server企业级平台管理实践>读书笔记--SQL Server中收缩数据库不好用的原因 数据库管理员有时候需要控制文件的大小,可能选择收缩文件,或者把某些数据文件情况以便从数据库里删除. 这时候我们就要使用到DBCC SHRINKFILE命令,此命令的脚本为: DBCC SHRINKFILE ( { file_name | file_id } { [ , EMPTYFILE ] | [ [ , target_size ] [ , { NOTRUNCATE | TRUNCATE