词表征 1：WordNet、0-1表征、共现矩阵、SVD

原文地址：https://www.jianshu.com/p/c1e4f42b78d7

一、基于知识的表征

参见图1.1，WordNet中包含同义词集(synonym sets)和上位词(hypernyms, is a关系)。
其存在的问题为：

作为资源来说是好的，但是它失去了词间的细微差别；
比如说"good"和"full"同义是需要在一定的上下文中才能成立的。
易错过词的新义，基本不可能时时保持up-to-date；
是人为分的，所以是主观的结果；
需要花费很多的人力去创建和调整；
很难计算出准确的词间相似度。

二、基于数据库的表征

（一）词本身

参见图2.1，0-1表征中，向量维度为数据库中总词汇数，每个词向量在其对应词处取值为1，其余处为0。
其存在的问题为：

因为不同词间相互正交，所以很难计算词间相似度。

（二）结合上下文

基本思想：相似的词有相似的上下文。

1、共现矩阵

1）基于整个文档

词-文档共现矩阵\(\in R^{|V|*M}\)，其中，\(|V|\)为词汇量大小，\(M\)为文档数量。
常给出文档的主题信息。

2）基于上下文窗口

词-词共现矩阵\(\in R^{|V|*|V|}\)，其中，\(|V|\)为词汇量大小。
窗口大小常取5~10，通常对称、不分左右。
常捕获语法、语义信息。

图2.2中红框部分为基于窗口大小为1、不区分左右形成的"love"、"enjoy"对应的高维稀疏词向量。
其存在的问题为：

共现矩阵的大小随着词汇量的增多而变大；
维度高；
数据稀疏带来的鲁棒性差。

2、低维稠密词向量

1）基于SVD进行降维

通过对共现矩阵进行SVD，得\(X=USV^T\)。选择\(U\)的前\(k\)列得到\(k\)维词向量。
通过计算\(\frac{\sum_{i=1}^{k}s_i}{\sum_{j=1}^{|V|}s_j}\)得到前\(k\)维捕获到的信息比例。
其优势为：

有效地利用了统计信息。

其存在的问题为：

难以加入新词，每次来个新词，都得更新共现矩阵，然后重新SVD；
由于大多数词不共现，导致矩阵十分稀疏；
矩阵维度通常很高(\(\approx 10^6*10^6\))；
计算代价高，对于\(n*m\)的矩阵为\(O(nm^2)\)；
需要对共现矩阵进行处理来面对词频上的极端不平衡现象。

其常用的解决办法为：

忽视"the"、"he"、"has"等功能词或者限制其次数不超过某个值(常100)；
基于文档中词间距离对共现矩阵中的count进行加权处理，常窗口中离中心词越近的词分配给其的权重越大；
使用Pearson相关系数(\(C(X,Y)=\frac{cov(X,Y)}{\sigma(X)*\sigma(Y)}\))来代替原本的count，负数置0。

原文地址：https://www.cnblogs.com/cherrychenlee/p/10800546.html

时间： 2024-12-08 20:59:24

词表征 1：WordNet、0-1表征、共现矩阵、SVD的相关文章

（转）基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）

转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述这2个月研究根据用户标签情况对用户的相似度进行评估,其中涉及一些推荐算法知识,在这段时间研究了一遍<推荐算法实践>和<Mahout in action>,在这里主要是根据这两本书的一些思想和自己的一些理解对分布式基于ItemBase的推荐算法进行实现.其中分两部分,第一部分是根据共现矩阵的方式来简单的推算出用户的推荐项,第二部分则是通过传统的相似度矩阵的方法来

关于高频关键词共现，ACA（作者同被引）等的范式

这篇随笔是写在看了若干篇关于高频关键词共现和ACA的文章之后的一个总结,这些论文大多是2010年之前发表的,这与这种方法是传统方法有很大关系.同时,这些文章不仅限于图书情报领域. 下面是正文: ①大多数论文用的方法就是崔雷说不太合适的,具体来说是:先用SPSS里的分析--相关--距离--皮尔森系数,将原始共现矩阵转化为相似性矩阵(其实也可以用cosine,许海云的文章就是没用Pearson用的cosine),然后在这个矩阵的基础上进行聚类分析和MDS分析.MDS分析就是用的是得到的矩阵然后操作就

基于共现发现人物关系的python实现

基于共现发现人物关系的python实现参考链接: 提取<釜山行>人物关系, 用Python的networkx绘制精美网络图 1.共现关系在文献计量学中,关键词的共词方法常用来确定该文献集所代表学科中各主题之间的关系.而在这里,我们需要通过分析一篇小说或剧本,来分析剧中各个角色之间的人物关系.两者有很相同的地方. 一般我们认为,在一篇文章中的同一段出现的两个人物之间,一定具有某种关联,因此我们的程序的大致流程也可以确定下来.我们可以先做分词,将每一段中的人物角色抽取出来,然后以段落为单位,统

向MapReduce转换：计算共现关系

分两部分: <strong><span style="font-size:18px;">/*** * @author YangXin * @info 计算共现关系的Mapper */ package unitSix; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.map

三国人物共现网络

三国部分人物共现图

机器学习学习笔记 PRML Chapter 2.0 : Prerequisite 2 -Singular Value Decomposition (SVD)

Chapter 2.0 : Prerequisite 2 -Singular Value Decomposition (SVD) Chapter 2.0 : Prerequisite 2 -Singular Value Decomposition (SVD) Christopher M. Bishop, PRML, Chapter 2 Probability Distributions 1. Vector Terminology Orthogonality Two vectors and are

地球物理学部分术语共现图

CDH5.10.0 离线安装(共3节点)

1.安装方式 CDH的离线部署安装,即Parcel包(推荐) 2.角色规划三个节点对应的角色: 3.基本环境配置(在每个节点上都要配置) (1)关闭防火墙 #/etc/init.d/iptables stop # chkconfig --level 345 iptables off (2)关闭seliux # vim /etc/sysconfig/selinux SELINUX=disabled (3)ip和主机名对应 #vim /etc/hosts 172.16.101.54 sht-

webpack打包vue2.0项目时必现问题(转载）

原文地址:http://www.imooc.com/article/17868 [Vue warn]: You are using the runtime-only build of Vue where the template compiler is not available. Either pre-compile the templates into render functions, or use the compiler-included build. (found in <Root>