假设每个词对应一个词向量,假设:
1)、两个词的相似度正比于对应词向量的乘积。即:$sim(v_1,v_2)=v_1\cdot v_2$。即点乘原则;
2)、多个词$v_1~v_n$组成的一个上下文用$C$来表示,其中$C=\sum_{i=1}^{n}v_i$。即加和原则;
3)、在上下文$C$中出现单词$A$的概率正比于能量因子$e^{-E(A,C)},where E=-A\cdot C$。即能量法则(可参看热统中的配分函数)。
因此:
\[p(A|C)=\frac{e^{-E(A,C)}}{\sum_{i=1}^Ve^{-E(v_i,C)}}=\frac{e^{A\cdot C}}{\sum_{i=1}^Ve^{v_i\cdot C}}\]
其中$V$是整个词汇空间。
时间: 2024-10-08 21:22:17