Python Word2Vec使用训练好的模型生成词向量

# 文本文件必须是utf-8无bom格式
from gensim.models.deprecated.word2vec import Word2Vec

model = Word2Vec.load(
    ‘./model/Word60.model‘)  # 3个文件放在一起:Word60.model   Word60.model.syn0.npy   Word60.model.syn1neg.npy
print("read model successful")

word_list = [‘了‘,
            ‘不存在的词‘,
            ‘的‘,
            ‘我‘,
            ‘你‘,
            ‘他‘,
            ‘个‘,
            ‘1‘,
            ‘完成‘,
            ‘吃‘,
            ‘苹果‘,
            ‘香蕉‘,
            ‘词汇‘,
            ‘物理‘,
            ‘地球‘,
            ‘黑死病‘,
            ‘瘟疫‘,
            ‘‘, ]

for word in word_list:
    if word in model.index2word:
        vec = model[word]
        print(word,vec)
    else:
        print(word + ‘\t\t\t——不在词汇表里‘ + ‘\n\n‘)

模型文件如下:

链接:https://pan.baidu.com/s/1c7V91VcWbHPBFIfmtWGb2g 密码:mgps

如果分享失效可以留言或者邮件联系。

原文地址:https://www.cnblogs.com/bincoding/p/8911943.html

时间: 2024-10-12 10:48:10

Python Word2Vec使用训练好的模型生成词向量的相关文章

python 使用新训练好的模型进行分类

6.在python中使用已经训练好的模型. Caffe只提供封装好的imagenet模型,给定一副图像,直接计算出图像的特征和进行预测.首先需要下载模型文件. Python代码如下: from caffe import imagenet from matplotlib import pyplot # Set the right path to your model file, pretrained model # and the image you would like to classify.

python爬虫爬取QQ说说并且生成词云图,回忆满满!

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

使用Python统计文件中词频,并且生成词云

.title { text-align: center } .todo { font-family: monospace; color: red } .done { color: green } .tag { background-color: #eee; font-family: monospace; padding: 2px; font-size: 80%; font-weight: normal } .timestamp { color: #bebebe } .timestamp-kwd

Python爬虫b站视频弹幕并生成词云图分析

爬虫:requests,beautifulsoup 词云:wordcloud,jieba 代码加注释: 1 # -*- coding: utf-8 -*- 2 import xlrd#读取excel 3 import xlwt#写入excel 4 import requests 5 import linecache 6 import wordcloud 7 import jieba 8 import matplotlib.pyplot as plt 9 from bs4 import Beaut

word2vec生成词向量原理

假设每个词对应一个词向量,假设: 1).两个词的相似度正比于对应词向量的乘积.即:$sim(v_1,v_2)=v_1\cdot v_2$.即点乘原则: 2).多个词$v_1~v_n$组成的一个上下文用$C$来表示,其中$C=\sum_{i=1}^{n}v_i$.即加和原则: 3).在上下文$C$中出现单词$A$的概率正比于能量因子$e^{-E(A,C)},where E=-A\cdot C$.即能量法则(可参看热统中的配分函数). 因此: \[p(A|C)=\frac{e^{-E(A,C)}}{

基线系统需要受到更多关注:基于词向量的简单模型

最近阅读了<Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms>这篇论文[1],该工作来自杜克大学,发表在ACL 2018上.论文详细比较了直接在词向量上进行池化的简单模型和主流神经网络模型(例如CNN和RNN)在NLP多个任务上的效果.实验结果表明,在很多任务上简单的词向量模型和神经网络模型(CNN和LSTM)的效果相当,有些任务甚至简单模型更好.下

word2vec词向量训练及中文文本相似度计算

本文是讲述如何使用word2vec的基础教程,文章比较基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python下载地址:http://radimrehurek.com/gensim/models/word2vec.html 1.简单介绍 参考:<Word2vec的核心架构及其应用 · 熊富林,邓怡豪,唐晓晟 · 北邮2015年> <Word2vec的工作原理及应用探究 · 周练 · 西安电子科技大学

gensim的word2vec如何得出词向量(python)

首先需要具备gensim包,然后需要一个语料库用来训练,这里用到的是skip-gram或CBOW方法,具体细节可以去查查相关资料,这两种方法大致上就是把意思相近的词映射到词空间中相近的位置. 语料库test8下载地址: http://mattmahoney.net/dc/text8.zip 这个语料库是从http://blog.csdn.net/m0_37681914/article/details/73861441这篇文章中找到的. 检查语料是否需要做预处理:将数据下载好了解压出来,在做词向量

【python gensim使用】word2vec词向量处理英文语料

word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离. 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高. 词向量:用Distributed Representation表示词,通常