一、共现矩阵
矩阵的行和列都是词典中的所有词,Xij的定义为,在所有词i的上下文中,Xj出现的次数。因此Xi定义为,所有的Xij之和,也就是词i出现的上下文中的词数总和,基本和词i的出现次数成正比。
二、概率
Pij定义为Xij/Xi,即词j在词i的上下文中出现的次数占词i总上下文次数的比值。
三、概率比值
比值ratio定义为,借助于第3个词k,探究2个词的关系,出现了一些规律
我们考虑ice冰和steam气的关系,借助于第3个词k:
发现当k为solid时,k和ice近似,这时ratio>>1;
而当k=gas,与steam接近时,ratio<<1;
当k取water或fashion等与2个词都不相关时,ratio≈1
因此,这个ratio只有意义的
原文地址:https://www.cnblogs.com/mimandehuanxue/p/9025312.html
时间: 2024-10-09 04:29:33