Latent Semantic Analysis (LSA) 模型 学习笔记

Latent Semantic Analysis (LSA) 模型 学习笔记

Latent Semantic Analysis 模型,隐性语义分析,也就是我们常说的LSA模型。后面还有他的兄弟PLSA和LDA模型,这个我们后面再说。这几个都是NLP中比较经典的模型!学习这个模型,主要总结到了三个方面:LSA模型可以应用在哪儿?LSA的理论部分,以及LSA的优缺点分析。

1. LSA的应用

LSA可以在VSM中降低样本的维度,并且可以从文本中发现隐含的语义维度。

在VSM中,文档被表示成由特征词出现的概率组成的多位向量,这个方法的好处就是可以把一个文本转化成数值向量,然后做一些相似度计算,聚类分类等等。

但是,在VSM中,无法处理一词多义和一义多词问题。例如,在VSM模型中,“被子”和“被褥”是两个完全不同的维度,而“笔记本”(notebook or laptop?)又被表示成相同的维度,因此不能够体现文本中隐含的语义。

所以说,LSA模型可以用来挖掘文本中的语义信息,减轻一词多义和一义多词问题。

2. LSA的理论分析

LSA模型的理论部分是基于奇异值分解SVD的,这个SVD在数据挖掘领域是很常见的,基于SVD的算法还有著名的降维算法:主成份分析法,PCA(Primary Component Analysis)。而且,我觉得PCA和LSA在一定程度上非常相似,只不过LSA明确了应用背景是NLP。

Step 1:在VSM模型中,一个文本被表示成一个向量,许多个文本被表示成为了一个矩阵C。C中的每一列都是一个文本,每一行即使一个term。

Step 2:我们对矩阵C做SVD分解,如下:

学过矩阵论就会直到,中间的sigma就是有C的特征值组成的一个对角矩阵。假设C矩阵有r个特征值,那么我们把r个特征值从大到小排列,前k个保留,后面r-k个置零,得到了sigman_k。

Step 3:我们计算一个近似的分解矩阵,如下:

由于sigma_k中只有k个非零值,所以C_k的rank(秩)不会超过k。

新得到的C_k就是我们经过LSA模型提取到的新矩阵,而且C_k就是新的低维隐含语义空间。该空间中,每个奇异值对应的是每个“语义”维度的权重,我们刚才将不太重要的权重置为零,只保留最重要的维度信息,因而可以得到文档的一种更优表达形式。

3. LSA模型的优缺点

优点:可以把原文本特征空间降维到一个低维语义空间;减轻一词多义和一义多词问题。

缺点:在SVD分解的时候,特别耗时,而且一般而言一个文本特征矩阵维数都会特别庞大,SVD此时就更加耗时;

而且,LSA缺乏严谨的数理统计基础。

时间: 2024-08-28 13:16:26

Latent Semantic Analysis (LSA) 模型 学习笔记的相关文章

Probability Latent Semantic Analysis (PLSA) 模型 学习笔记

Probability Latent Semantic Analysis (PLSA) 模型 学习笔记 PLSA是前面LSA的兄弟版,相比于LSA而言,PLSA定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释了.这篇博文我们分三部分来说PLSA:基本思想,EM算法推导,以及优缺点分析. 1.  PLSA的基本思想 PLSA是一种主题模型topic model,是针对文本中隐含的主题来建模的方法.PLSA就是给定了文档d之后,需要以一定的概率选择与文档相对应的主题z,

Latent semantic analysis note(LSA)

1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法.该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系:而不同的是,LSA将词和文档映射

主题模型之概率潜在语义分析(Probabilistic Latent Semantic Analysis)

上一篇总结了潜在语义分析(Latent Semantic Analysis, LSA),LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高,使用概率推导可以使用一些优化迭代算法来求解. Thomas Hofmann 于1998年根据似然原理定义了生成模型并由此提出了概率潜在语义分析模型(Probabilistic Latent Semantic Analysis),简称PLSA. PLSA属于概率

潜在语义分析Latent semantic analysis note(LSA)原理及代码实现

文章参考:http://blog.sina.com.cn/s/blog_62a9902f0101cjl3.html Latent Semantic Analysis (LSA)也被叫做Latent Semantic Indexing(LSI),从字面上的意思理解就是通过分析文档去发现这些文档中潜在的意思和概念.假设每个词仅表示一个概念,并且每个概念仅仅被一个词所描述,LSA将非常简单(从词到概念存在一个简单的映射关系) 不幸的是,这个问题并没有如此简单,因为存在不同的词表示同一个意思(同义词),

潜在语义分析Latent semantic analysis note(LSA)原理及代码

文章引用:http://blog.sina.com.cn/s/blog_62a9902f0101cjl3.html Latent Semantic Analysis (LSA)也被称为Latent Semantic Indexing(LSI),理解就是通过分析文档去发现这些文档中潜在的意思和概念. 如果每一个词仅表示一个概念.而且每一个概念只被一个词所描写叙述.LSA将很easy(从词到概念存在一个简单的映射关系) 不幸的是,这个问题并没有如此简单.由于存在不同的词表示同一个意思(同义词).一个

主题模型之潜在语义分析(Latent Semantic Analysis)

主题模型(Topic Models)是一套试图在大量文档中发现潜在主题结构的机器学习模型,主题模型通过分析文本中的词来发现文档中的主题.主题之间的联系方式和主题的发展.通过主题模型可以使我们组织和总结无法人工标注的海量电子文档.较早的主题模型有混合语言模型(Mixture of Unigram),潜在语义索引(Lantent Semantic Index,LSI),概率潜在语义索引(Probabilistic Latent Semantic Indexing,PLSI).主题模型中文档是由主题组

Latent Semantic Analysis(LSA)

背景:什么是LSA? Latent Semantic Analysis(LSA)中文翻译为潜语义分析,也被叫做Latent Semantic Indexing ( LSI ).意思是指通过分析一堆(不止一个)文档去发现这些文档中潜在的意思和概念,什么叫潜在的意思?我第一次看到这个解释,直接懵逼.其实就是发现文档的中心主题吧?假设每个词仅表示一个概念,并且每个概念仅仅被一个词所描述,LSA将非常简单(从词到概念存在一个简单的映射关系). 根据常识我们知道两个很常见的语言现象:1. 存在不同的词表示

DOM事件模型学习笔记

下面的内容属于阅读笔记,其中涉及大量内容来自于PPK的博客的内容,如果你要跟随我的脚步领略大家风采,那么就从Introduction to Events开始阅读吧. 现代的前端开发应该是会严格遵守 html 展示文档内容构成,css 渲染页面效果,javascript 提供交互 浏览器提供交互行为可以追溯到Netscape公司在其第二个版本中支持javascript语言,随后其与微软之间的浏览器大战,以及w3c标准制定的落后,导致至今一直被诟病的浏览器兼容问题,而这些不兼容中关于DOM事件模型的

【点击模型学习笔记】A survey on click modeling in web search_Lianghao Li_ppt

是一篇综述性质的ppt. 主要内容: 对搜索中的广告点击预测,总结学术界的研究成果. 搜索广告主要展示位为:1. 搜索结果页面最上侧:2. 搜索结果右侧. 研究意义:广告点击次数直接影响收入 问题抽象:对于某个query q,和某个广告ad,预测用户对它们的点击率. 具体内容: 1. 最简单的点击模型:通过点击次数来预测,计算公式为 P = #count of clicks / #count of impressions(展现) 缺点:点击受到用户浏览行为的影响:对于长尾query和ad,存在冷