自然语言处理3.1——从网络和硬盘访问文本

文本的最重要来源无疑是网络。探索现成的文本集合是很方便的,然而每个人都有自己的文本来源,需要学习如何去访问他们。

首先,我们要学习从网络和硬盘访问文本。

1.电子书

NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可以在http://www.gutenberg.org/catalog/上浏览其他书籍

下面以编号2554的文本《罪与罚》为例,简单介绍怎么通过Python访问

-*- encoding:utf-8 -*-
from urllib.request import urlopen
import nltk
url=r‘http://www.gutenberg.org/files/2554/2554.txt‘
raw=str(urlopen(url).read(),encoding=‘utf-8‘)
print(type(raw))

此时输出为<class ‘str‘>

>>>print(raw[:75])
The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky>>>print(len(raw))1176831

变量raw包含了1176831个字符,这是这本书的原始内容,但是其中有很多我们不关系的细节,例如空格,换行符等等。对于语言处理,要将字符串分解为词和标点符号,这一过程我们成为分词,用于产生词汇和标点符号的列表。

>>>token=nltk.word_tokenize(raw)
>>>print(type(token))
<class ‘list‘>
>>>print(len(token))
254352
>>>print(token[:10])
[‘The‘, ‘Project‘, ‘Gutenberg‘, ‘EBook‘, ‘of‘, ‘Crime‘, ‘and‘, ‘Punishment‘, ‘,‘, ‘by‘]

请注意,NLTK需要分词,但之前打开的URL读入字符串任务都没有进行分词。如果进一步在链表中创建NLTK文本,便可以进行一些常规的链表操作,例如切片

>>>text=nltk.Text(token)
>>>print(text[1020:1060])
[‘AND‘, ‘PUNISHMENT‘, ‘PART‘, ‘I‘, ‘CHAPTER‘, ‘I‘, ‘On‘, ‘an‘, ‘exceptionally‘, ‘hot‘, ‘evening‘, ‘early‘, ‘in‘, ‘July‘, ‘a‘, ‘young‘, ‘man‘, ‘came‘, ‘out‘, ‘of‘, ‘the‘, ‘garret‘, ‘in‘, ‘which‘, ‘he‘, ‘lodged‘, ‘in‘, ‘S.‘, ‘Place‘, ‘and‘, ‘walked‘, ‘slowly‘, ‘,‘, ‘as‘, ‘though‘, ‘in‘, ‘hesitation‘, ‘,‘, ‘towards‘, ‘K.‘]

>>>print(text.collocations())
Katerina Ivanovna; Pyotr Petrovitch; Pulcheria Alexandrovna; Avdotya
Romanovna; Rodion Romanovitch; Marfa Petrovna; Sofya Semyonovna; old
woman; Project Gutenberg-tm; Porfiry Petrovitch; Amalia Ivanovna;
great deal; Nikodim Fomitch; young man; Ilya Petrovitch; n‘t know;
Project Gutenberg; Dmitri Prokofitch; Andrey Semyonovitch; Hay Market

下面我们介绍find和rfind函数

例如,古腾堡项目下载的文本都包含一个首部,里面有文本的名称、作者等等。因此在原始文本中挑选内容之前,需要手工检查文件来发现标记内容开始和结尾的特定字符串。

>>>start=raw.find(‘PART I‘)
>>>end=raw.rfind("End of Project Gutenberg‘s Crime" )
>>>raw=raw[start:end]
>>>print(raw.find(‘PART I‘))
0

函数find()和rfind()(反向的find)用于获取字符串切片所在的索引值。

时间: 2024-10-01 07:09:16

自然语言处理3.1——从网络和硬盘访问文本的相关文章

网络挖掘技术——微博文本特征提取

文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂.当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性.文本处理中最常用的相似性度量方式是余弦距离.文本挖掘系统采用向量空间模型,用特征词条(T1 ,T2 ,-Tn) 及其权值Wi 代表目标信息,在进行

利用minidwep跑PIN+跑包破解密码连接无线网络无internet访问

1.对方wlan没有连接,这种如果是他的网线没插,没有办法.如果不是,并且进入路由器查看宽带是否连接. 2.连接无线网络,但是显示无INTERNET访问,可以ipconfig查看ip.mask.gateway是否正确 由于本人网络到期,学习破解wifi,连入他人wifi,显示无INTERNET访问,由于部分无法获取ip地址,所以写批处理文件快速配置ip地址.子网掩码.网关. @echo off netsh interface ip set address name="无线网络连接" s

Windows Server 2008网络中顺畅访问“邻居”

通过网上邻居窗口寻找共享资源,是很多局域网用户经常要做的一项"功课",为了做好这项"功课",不少朋友积累和总结了不少网上邻居故障排除经验;然而这些经验在Windows Server 2008网络环境中,多数是没有多少用武之地的,毕竟Windows Server 2008系统是一种全新的工作环境,要想从Windows Server 2008网络中顺畅找到自己想要交往的"邻居",还需要总结新的网上邻居故障排除经验.为此,本文现在就对Windows S

VMware10中的Linux系统利用NAT网络连接方式访问外网配置

一.描述 在VMware10中 提供常见的三种网络连接方式 : 1.Bridge:这种方式最简单,直接将虚拟网卡桥接到一个物理网卡上面,与linux下一个网卡绑定两个不同地址类似,实际上是将网卡设置为混杂模式,从而达到侦听多个IP的能力. 在此种模式下,虚拟机内部的网卡(例如linux下的eth0)直接连到了我们真实物理网卡所在的网络上,相当于虚拟机和真实主机处于对等的地位,在网络关系上是平等的,没有谁在谁后面的问题.使用这种方式很简单,前提是你有1个以上的IP地址,这个不太适合使用. 2.na

使用VC建立网络连接并访问网络资源

目录 1. 提出问题 2. 解决方案 1. 提出问题 在windows下可以通过系统操作,将局域网的资源映射到本地,从而实现像本地数据一样访问网络资源.实际上这些步骤也可通过代码调用win32函数实现,前提是你得知道目标机器的地址以及密钥. 2. 解决方案 直接上VC的实例代码: #include <Windows.h> #include <iostream> #include <fstream> #pragma comment(lib, "mpr.lib&q

网络路径无法访问问题的解决

网络---关于无法访问阿里云ECS问题

问题描述:办公室突然无法访问阿里云的其中一台服务器,IP可以ping通,但是端口不通,并不是完全不能访问,有时可以,有时不可以,有的电脑可以,有的电脑不可以,外网是可以的,问题一直没有解决,发现IDC机房的服务器是可以访问的,所以使用隧道技术,将办公室的80端口请求转发到阿里云,临时解决.一段时间后IDC服务器又出现类似问题.将问题报告给IDC机房,IDC机房更换端口后,恢复正常,过一段时间又出现问题. 解决方法:寻求阿里云技术支持,多次后,终于找到问题解决方案,修改阿里云服务器的内核参数. c

《Python自然语言处理》

<Python自然语言处理> 基本信息 作者: (美)Steven Bird    Ewan Klein    Edward Loper 出版社:人民邮电出版社 ISBN:9787115333681 上架时间:2014-6-13 出版日期:2014 年6月 开本:16开 页码:508 版次:1-1 所属分类:计算机 > 软件与程序设计 > Python 更多关于>>><Python自然语言处理> 内容简介 书籍 计算机书籍 自然语言处理(natural

Python之NLP(转)

http://blog.csdn.net/caicai1617/article/details/21191781 <使用Python进行自然语言处理>学习笔记五 标签: python自然语言处理nlp 2014-03-13 21:48 7834人阅读 评论(3) 收藏 举报  分类: 自然语言处理(13)  Python(11)  版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 第三章 加工原料文本 3.1 从网络和硬盘访问文本 1 电子书 古腾堡项目的其它文本可以在线