文本向量化的原理

一、文本分词

将需要进行分析的文本进行分词(英文直接按照空格分隔词汇,中文则需通过分词工具分隔之后,把词之间加上空格)

二、去停用词

在文本中可以发现类似”the”、”a”等词的词频很高,但是这些词并不能表达文本的主题,我们称之为停用词。

对文本预处理的过程中,我们希望能够尽可能提取到更多关键词去表达这句话或文本的中心思想,因此我们可以将这些停用词去掉后再编码。

三、将词编号

按照词频(次出现的频率)进行倒序编号,如英文中一篇文章出现最多的应该是“a”,“the”等词汇(假设‘a’出现次数大于‘the’),则把“a”编号为“1”,‘the’编号为“2”,以此类推。

这样在文本中出现过的词都会有自己特有的编号。对每个词编码之后,每句话中的每个词就可以用对应的编码表示,即每条文本已经转变成一个向量了。

四、文本长度统一

对每个词编码之后,每条文本中的每个词就可以用对应的编码表示,即每条文本已经转变成一个向量。但是,由于文本的长度不唯一,需要将每条文本的长度设置一个固定值。

假设每个句子的长度都固定为100,如果长度大于100,则将超过的部分截掉;如果小于100,则在最前面用0填充。

五、将词编码转化为词向量

在神经网络中一般要将文本转化成矩阵进行计算,单单将文本转化为向量还是不够,所以需要将每个词编码转化成词向量。

此步骤一般先使用“one-hot”编码方式编码,这样就会将一条文本转化为一个n*n的矩阵(n表示文本中出现的不同的词个数)。然后通过神经网络的训练迭代更新得到一个合适的权重矩阵(具体实现过程可以参考skip-gram模型),行大小为n,列大小为词向量的维度(小于n)。

至此已经将文本数据预处理完毕,将每个影评样本转换为一个数字矩阵,矩阵的每一行表示一个词向量。

原文地址:https://www.cnblogs.com/hehejeson/p/12443342.html

时间: 2024-11-13 05:24:10

文本向量化的原理的相关文章

[自然语言处理] 文本向量化技术

前期准备 使用文本向量化的前提是要对文章进行分词,分词可以参考前一篇文章.然后将分好的词进行向量化处理,以便计算机能够识别文本.常见的文本向量化技术有词频统计技术.TF-IDF技术等. 词频统计技术 词频统计技术是很直观的,文本被分词之后. 用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同.然后给每个维度使用词频当作权值.词频统计技术默认出现频率越高的词权重越大. 举例说明: 原文: 句子A:我喜欢看电视,不喜欢看电影. 句子B:我不喜欢看电视,也不喜欢看电影.

word to vector 文本向量化

现在趋势是高层用可解释的模型例如 线性模型或者gbdt,下层用带深度的embedding. 文本向量化的 word 2 vector 很不错也有很多自己做得模型,关键在于语聊,模型效果差异不大. 这里有训练好的模型,30种语言非英语,感觉语料不是很好 https://github.com/Kyubyong/wordvectors 这个项目里面有英文预料的,英文有很多语料库例如wordbank google news,wallstreet,都是很好的语聊库. https://github.com/

利用OpenCV实现旋转文本图像矫正的原理及OpenCV代码

对图像进行旋转矫正,关键是要获取旋转角度是多少!获取了旋转角度就可以用仿射变换对图像进行矫正,图像旋转的代码可以参考我的博文http://blog.csdn.net/wenhao_ir/article/details/51469085 旋转角度怎么获取?可以对图像作傅里叶变换获取这个角度,具体怎么求,请听我慢慢道来! 文本图像的明显特征就是存在分行间隔,那么行与文字之间这个灰度值变化就不如真正的文字及文字间的变化剧烈,那么相应的这些地方的频谱值也低,即频谱的低谱部分,因为傅里叶变换就是表征图像各

文本向量化(理论篇)

本文介绍常见的文本表示模型,One-hot.词袋模型(BOW).TF-IDF.N-Gram和Word2Vec 一.离散表示 1.One-hot编码 One-hot编码是非常用的方法,我们可以用One-hot编码的方式将句子向量化,大致步骤为: 用构造文本分词后的字典 对词语进行One-hot编码 John likes to watch movies. Mary likes too John also likes to watch football games. 上面的两句话分词后可以构造一个字典

搜索引擎与网页文本分词的原理

对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和分词技术是非常重要的一环! 搜索引擎工作的第一步:提取页面文字 首先就是抓取页面的文字,一般而言搜索引擎会把相关关键词的对应文字提取出来,还有就是meta标签等等,还有就是关键词和描述以及图片的ATL属

富文本编辑器开发原理

富文本编辑器的开发主要使用到东西如下: 1.iframe 2.将iframe的designMode设置为'on' 3.将iframe的contentEditable设置为true 4.获取iframe对象的contentDocument(注意兼容性) 5.使用contentDocument对象的write方法写入一个html文档,为解决兼容性问题需要再使用write方法之前使用open方法.之后使用close方法. 6.获取文档内容使用doc.body.innerHTML 7.实现加粗之类操作的

使用gensim和sklearn搭建一个文本分类器(一):文档向量化

总的来讲,一个完整的文本分类器主要由两个阶段,或者说两个部分组成:一是将文本向量化,将一个字符串转化成向量形式:二是传统的分类器,包括线性分类器,SVM, 神经网络分类器等等. 之前看的THUCTC的技术栈是使用 tf-idf 来进行文本向量化,使用卡方校验(chi-square)来降低向量维度,使用liblinear(采用线性核的svm) 来进行分类.而这里所述的文本分类器,使用lsi (latent semantic analysis, 隐性语义分析) 来进行向量化, 不需要降维, 因为可以

在线文本编辑器的基本实现原理

引用地址:http://www.w3ctech.com/topic/140 最近研究了一下在浏览器中实现的 WYSIWYG 文本编辑器的原理, 在了解基本原理并浏览了 zenpen 这个相对简单的在线编辑器的源码后, 在这方面有种豁然开朗的感觉. 说来让人惊讶,最初在浏览器中使之变为可能的浏览器是 IE5.在那个时代, IE 的确也算是非常先进的浏览器了,现在广为使用的 AJAX 技术,不也是 IE5 最早提供的么? 不过这里就不再讨论当初 IE 那套陈旧的 API 了,而主要来讨论 HTML5

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络 资源获取链接:点击这里 第1章 课程介绍 本章节主要介绍课程的主要内容.核心知识点.课程涉及到的应用案例.深度学习算法设计通用流程.适应人群.学习本门课程的前置条件.学习后达到的效果等,帮助大家从整体上了解本门课程的整体脉络. 1-1 课程导学 第2章 目标检测算法基础介绍 本章节主要介绍目标检测算法的基本概念.传统的目标检测算法.目前深度学习目标检测主流方法(one-sta