NLTK与NLP原理及基础

参考https://blog.csdn.net/zxm1306192988/article/details/78896319

以NLTK为基础配合讲解自然语言处理的原理  http://www.nltk.org/

Python上著名的自然语?处理库

自带语料库,词性分类库 
自带分类,分词,等功能 
强?的社区?持 
还有N多的简单版wrapper,如 TextBlob

NLTK安装(可能需要预先安装numpy)

pip install nltk

 安装语料库

import nltk
nltk.download()

  

NLTK自带语料库

>>> from nltk.corpus import brown
>>> brown.categories()  # 分类
[‘adventure‘, ‘belles_lettres‘, ‘editorial‘,
‘fiction‘, ‘government‘, ‘hobbies‘, ‘humor‘,
‘learned‘, ‘lore‘, ‘mystery‘, ‘news‘, ‘religion‘,
‘reviews‘, ‘romance‘, ‘science_fiction‘]
>>> len(brown.sents()) # 一共句子数
57340
>>> len(brown.words()) # 一共单词数
1161192

  文本处理流程:

文本 -> 预处理(分词、去停用词) -> 特征工程 -> 机器学习算法 -> 标签

分词(Tokenize)

把长句?拆成有“意义”的?部件

>>> import nltk
>>> sentence = “hello, world"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
[‘hello‘, ‘,‘, ‘world‘]

  中英文NLP区别: 
英文直接使用空格分词,中文需要专门的方法进行分词

原文地址:https://www.cnblogs.com/elpsycongroo/p/9369171.html

时间: 2024-08-29 14:28:03

NLTK与NLP原理及基础的相关文章

【git体验】git原理及基础

原理:分布式版本控制系统像 Git,Mercurial,Bazaar 以及 Darcs 等,客户端并不只提取最新版本 的文件快照,而是把原始的代码仓库完整地镜像下来.这么一来,任何一处协同工作用的服务器发生故障, 事后都可以用任何一个镜 像出来的本地仓库恢复.因为每一次的提取操作,实际上都是一次对代码仓库的 完整备份. 更进一步,许多这类系统都可以指定和若干不同的远端代码仓库进行交互.籍此,你就可以在同一个 项目中,分别和不同工作小组的人相互协作.你可以根据需要设定不同的协作流程,比如层次模型式

Linux iptables:规则原理和基础

什么是iptables? iptables是Linux下功能强大的应用层防火墙工具,但了解其规则原理和基础后,配置起来也非常简单. 什么是Netfilter? 说到iptables必然提到Netfilter,iptables是应用层的,其实质是一个定义规则的配置工具,而核心的数据包拦截和转发是Netfiler. Netfilter是Linux操作系统核心层内部的一个数据包处理模块. iptables和Netfilter关系图: 在这张图可以看出,Netfilter作用于网络层,数据包通过网络层会

[转] TCP/IP原理、基础以及在Linux上的实现

导言:本篇作为理论基础,将向我们讲述TCP/IP的基本原理以及重要的协议细节,并在此基础上介绍了TCP/IP在LINUX上的实现. OSI参考模型及TCP/IP参考模型 OSI模型(open system interconnection reference model)是基于国际标准化组织(ISO)的建议而发展起来的,它分为如图3-1所示的七层.当卫星和无线网络出现以后,现有的协议在和这些网络互联时出现了问题,所以需要一种新的参考体系结构,能无缝地连接多个网络.这个体系结构就是TCP/IP参考模

linux基础-第十四单元 Linux网络原理及基础设置

第十四单元 Linux网络原理及基础设置 三种网卡模式图 使用ifconfig命令来维护网络 ifconfig命令的功能 ifconfig命令的用法举例 使用ifup和ifdown命令启动和停止网卡 ifup命令的功能 ifdown命令的功能 ifup命令的用法举例 ifdown命令的用法举例 网络配置文件 网卡对应的网络配置文件 什么是网络配置 ip命令 ping命令 setup命令 课后作业 [本节内容]1. 使用ifconfig命令来维护网络(详见linux系统管理P422)1) 掌握if

Java Web基础:JSP工作原理和基础概念

JSP介绍 JSP全称是Java Server Pages,它和Servlet都是Sun公司定义的用于开发动态Web资源的技术,它解决了Servlet输出流排版复杂和难以维护的问题.JSP完美融合了HTML模版元素和Java代码,通过JSP写服务端输出变得和写HTML网页一样容易. JSP通过涵盖HTML模版元素来简化输出排版,还提供不同的JSP标签管理不同类型的Java代码,除此之外,它还默认封装了9大隐式对象,帮助提高开发的效率. JSP本质上是Servlet,当用户请求JSP时,JSP引擎

Linux网络原理及基础设,yum管理RPM包

一:ifconfig命令 1,ifconfig命令的功能:显示所有正在启动的网卡的详细信息或设定系统中网卡的IP地址. 2. 使用ifup和ifdown命令启动和停止网卡(详见linux系统管理P424)1) 掌握ifup命令的功能:启动系统上指定的网卡.2) 掌握ifdown命令的功能:停止系统上指定的网卡.3) 掌握使用ifup命令启用指定网卡的举例:例如:启动eth0网卡的命令:ifup eth04) 掌握使用ifdown命令停用指定网卡的举例:只能作用于配置文件例如:停用eth0网卡的命

几个移动机器人lab资料 相关链接,实验室、原理、基础知识

1.Introduction to Control of Mobile Robots https://www.youtube.com/watch?v=KZEWLZJwYNc&list=PLciAw3uhNCiD3dkLTPJgHoMnsu8XgCt1m http://gritslab.gatech.edu/home/people/ 2.The DREAM Lab http://dream.georgiatech-metz.fr/?q=node/13 3.Introduction-to-Auton

Linux 网络原理及基础设置

临时配置网络(ip,网关,dns)+永久配置 设置IP和掩码ifconfig eth0 192.168.2.2 netmask 255.255.255.0 设置网关route add default gw 192.168.2.10 [[email protected] ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=EthernetBOOTPROTO=staticDEVICE=eth0IPADDR=192.168.2.2NETMASK

MySQL运行原理与基础架构

下面是关于上述部件的介绍: 1. connectors 与其他编程语言中的sql 语句进行交互,如php.java等. 2. Management Serveices & Utilities 系统管理和控制工具 3. Connection Pool (连接池) 管理缓冲用户连接,线程处理等需要缓存的需求 4. SQL Interface (SQL接口) 接受用户的SQL命令,并且返回用户需要查询的结果.比如select from就是调用SQL Interface 5. Parser (解析器)