驾驭文本:文本的发现、组织和处理——互动出版网

这篇是计算机类的优质预售推荐>>>>《驾驭文本:文本的发现、组织和处理》

编辑推荐

本书适合于互联网文本内容处理领域的开发人员阅读,也适合有志于加入这一领域的学生、从业人员阅读。即使对于已经从事多年文本处理研究和开发工作的人员来说,本书也不失为一种有益的补充性读物。

内容简介

文本处理是目前互联网内容应用(如搜索引擎、推荐引擎)的关键技术。本书涵盖了文本处理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。本书的特点在于通过实例来理解文本处理的这些概念和技术,读者利用现有的开源工具就可以自己实现这些实例。

部分目录

第1章 开始驾驭文本 ...............................................................................1

1.1 驾驭文本重要的原因 ...............................................................................................2

1.2 预览:一个基于事实的问答系统 ...........................................................................4

1.2.1 嗨,弗兰肯斯坦医生 ...................................................................................5

1.3 理解文本很困难 .......................................................................................................8

1.4 驾驭的文本 .............................................................................................................11

1.5 文本及智能应用:搜索及其他 .............................................................................13

1.5.1 搜索和匹配 .................................................................................................13

1.5.2 抽取信息 .....................................................................................................14

1.5.3 对信息分组 .................................................................................................15

1.5.4 一个智能应用 .............................................................................................15

1.6 小结 .........................................................................................................................15

1.7 相关资源 .................................................................................................................16

第2章 驾驭文本的基础 ..........................................................................17

2.1 语言基础知识 .........................................................................................................18

2.1.1 词语及其类别 .............................................................................................19

2.1.2 短语及子句 .................................................................................................20

2.1.3 词法 .............................................................................................................21

2.2 文本处理常见工具 .................................................................................................23

2.2.1 字符串处理工具 .........................................................................................23

2.2.2 词条及切词 .................................................................................................23

2.2.3 词性标注 .....................................................................................................25

2.2.4 词干还原 .....................................................................................................27

2.2.5 句子检测 .....................................................................................................29

2.2.6 句法分析和文法 .........................................................................................31

2.2.7 序列建模 .....................................................................................................33

2.3 从常见格式文件中抽取内容并做预处理 .............................................................34

2.3.1 预处理的重要性 .........................................................................................35

2.3.2 利用Apache Tika抽取内容 ........................................................................37

2.4 小结 .........................................................................................................................39

2.5 相关资源 .................................................................................................................40

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-27 23:50:59

驾驭文本:文本的发现、组织和处理——互动出版网的相关文章

sql server 导入平面文件源数据,错误 0xc02020a1错误 0xc020902a 错误 0xc02020c5,返回状态值 4 和状态文本“文本被截断,或者一个或多个字符在目标代码页...

使用sql server 导入平面文件源数据时,报错:错误 0xc02020a1: 错误 0xc020902a: 错误 0xc02020c5:错误 0xc0047022: 返回状态值 4 和状态文本"文本被截断,或者一个或多个字符在目标代码页中没有匹配项. 错误 0xc02020a1: 数据流任务 1: 数据转换失败.列"列 6"的数据转换返回状态值 4 和状态文本"文本被截断,或者一个或多个字符在目标代码页中没有匹配项.". (SQL Server 导入

[cocos2d]修改富文本文本和高度

1.local richTable     = {   {text           = '  ', color   = cc.c3b(173,118,15)},   {custom         = '',          color   = ItemMacro[index].color, param = id}  } 2.item:setContentSize(50,20)

当你发现linux系统上不了网时,你可以...

llinux的dns解析的三种解析方法: 1.本地dns的域名解析:  vim  /etc/hosts 添加规则: (for example) 10.10.10.131    www.fangwenchen.com 2.网卡配置文件DNS服务地址: vim /etc/sysconfig/network-scripts/ifcfg-eth0 添加规则: dns=114.114.114.114 3.系统默认dns配置: vim /etc/resolv.conf添加:nameserver 114.11

参与组织社区活动总结

我这里所定义的社区活动是非营利性的,小规模的.不像InfoQ.51CTO或CSDN等互联网媒体所办的全球软件大会,软件峰会,高大上的会议门票价格不菲. 当你去参加一个线下社区交流活动的时候,有没有想过这个活动筹办了多久?背后有多少人在组织?组织者为这次活动付出了多少?我希望常参加社区活动的朋友可以了解活动背后的故事,也同样在参加的活动的时候保持会场秩序,尊重他们的工作. 2014年12月在北京上地联想研究院举办了一次敏捷线下交流活动.我有幸参与组织了这次活动,本月底要开活动回顾会议,正好提前先总

《iOS开发全然上手——使用iOS 7和Xcode 5开发移动与平板应用》之Objective-C新手训练营

编写Hello World应用程序通常被觉得,是学习不论什么编程语言的第一步.在这一章,你将创建iOS版的Hello World应用程序作为起步,高速了解Xcode这个开发iOS应用程序的主要工具. 下一步.你将学习Objective-C的基础知识.在此基础之上.将探索类(class)与对象(object)的知识.它们是构建应用程序的主要基石.与此同一时候,你将创建CarValet应用程序,练习一些类的编写.并学习属性(property)的知识.在本章末尾,你将在指导下完毕编程挑战题以探索子类扩

《iOS开发完全上手——使用iOS 7和Xcode 5开发移动与平板应用》之Objective-C新手训练营

编写Hello World应用程序通常被认为,是学习任何编程语言的第一步.在这一章,你将创建iOS版的Hello World应用程序作为起步,快速了解Xcode这个开发iOS应用程序的主要工具. 下一步,你将学习Objective-C的基础知识.在此基础之上,将探索类(class)与对象(object)的知识,它们是构建应用程序的主要基石.与此同时,你将创建CarValet应用程序,练习一些类的编写,并学习属性(property)的知识.在本章末尾,你将在指导下完成编程挑战题以探索子类扩展的知识

《软件故事:谁发明了那些经典的编程语言》

<软件故事:谁发明了那些经典的编程语言> 基本信息 作者: (美)史蒂夫.洛尔 译者: 张沛玄 出版社:人民邮电出版社 ISBN:9787115355089 上架时间:2014-6-19 出版日期:2014 年6月 开本:16开 页码:1 版次:1-1 所属分类:计算机 > 软件工程及软件方法学 > 综合 更多关于>>><软件故事:谁发明了那些经典的编程语言> 编辑推荐 聆听软件行业发展的精彩故事 领悟软件巨擘的深邃思想 放飞想象力,通过编码改变世界

《Linux就是这个范儿》

<Linux就是这个范儿> 基本信息 作者: 赵鑫磊    (加)Jie Zhang(张洁) 丛书名: 图灵原创 出版社:人民邮电出版社 ISBN:9787115359360 上架时间:2014-6-27 出版日期:2014 年7月 开本:16开 页码:728 版次:1-1 所属分类:计算机 > 操作系统 > Linux 更多关于>>> <Linux就是这个范儿>   编辑推荐 阿里巴巴Linux技术大拿赵鑫磊.支付宝高级专家Jie Zhang带你深入

《HTML5与CSS3实例教程》

<HTML5与CSS3实例教程> 基本信息 作者: (美)Brian P. Hogan 译者: 卢俊祥 丛书名: 图灵程序设计丛书 出版社:人民邮电出版社 ISBN:9787115363404 上架时间:2014-7-25 出版日期:2014 年8月 开本:16开 页码:1 版次:1-1 所属分类:计算机 > 数码/设计 > CSS 计算机 > 软件与程序设计 > 网络编程 > HTML 更多关于>>> <HTML5与CSS3实例教程>