利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块

  语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据
  数据处理参考这篇文章

  模型训练:

# -*- coding: utf-8-*-
from gensim.models.word2vec import Word2Vec
sentences = [[‘A1‘,‘A2‘],[‘A1‘,‘A3‘,‘A2‘]] 

num=0
with open(‘sohu_train.txt‘) as trainText:  #, encoding=‘utf-8‘
    for line in trainText:
        id,catgre,body= line.split(‘^_^‘)
        words=body.replace(‘\n‘,‘‘).split(‘    ‘)
        sentences.append(words)
        # if num>1000:break
        num+=1
        # print(sentences)

model= Word2Vec(min_count=1)
print("start train ...")
model.build_vocab(sentences)
model.train(sentences,total_examples = model.corpus_count,epochs = model.iter)
print("train finished!",num)

model.save(‘./sohu_model/Model‘)
#model.save_word2vec_format(‘/tmp/mymodel.txt‘,binary = False)
#model.save_word2vec_format(‘/tmp/mymodel.bin.gz‘,binary = True)
#前一组方法保存的文件不能利用文本编辑器查看但是保存了训练的全部信息,可以在读取后追加训练
#后一组方法保存为word2vec文本格式但是保存时丢失了词汇树等部分信息,不能追加训练
print("save finished!")

  模型使用:

# #模型使用
model = Word2Vec.load(‘./sohu_model/Model‘)
print("load model sesuess!")
# model.most_similar([‘北京‘])

print u‘most similar with 北京:‘
for i in model.most_similar("北京"): #计算余弦距离最接近“北京”的10个词
    print i[0].decode(‘utf-8‘),i[1]

print u‘皇帝+女性-男性:‘
for i in model.most_similar(positive = [‘皇帝‘,‘女性‘],negative = [‘男性‘],topn = 3):print i[0].decode(‘utf-8‘),i[1]

print u‘手机+移动-智能:‘
for i in model.most_similar(positive = [‘手机‘,‘移动‘],negative = [‘智能‘],topn = 3):print i[0].decode(‘utf-8‘),i[1]

print u‘电影+科幻-剧情:‘
for i in model.most_similar(positive = [‘电影‘,‘科幻‘],negative = [‘剧情‘],topn = 3):print i[0].decode(‘utf-8‘),i[1]

print u‘北京 vector:‘
print model[‘北京‘]

  输出:

C:\Python27\lib\site-packages\gensim\utils.py:1212: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
  warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
load model sesuess!
most similar with 北京:
C:\Python27\lib\site-packages\gensim\matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int32 == np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):
南京 0.670382142067
上海 0.661236405373
成都 0.639219224453
杭州 0.63784122467
广州 0.631313323975
深圳 0.624626278877
武汉 0.624594151974
昆明 0.620243370533
长春 0.61394149065
长沙 0.60389906168
皇帝+女性-男性:
哥 0.60431176424
魔术师 0.586149096489
魔女 0.581812143326
手机+移动-智能:
智能手机 0.605030536652
互联网 0.54615008831
苹果 0.539426982403
电影+科幻-剧情:
纪录片 0.648482918739
动画 0.639703273773
迪斯尼 0.61851131916
北京 vector:
[-0.08981118  0.18538047 -4.7453156  -1.7730242   2.0390635   2.6085184
  5.088326    2.8057106   2.6798103  -1.4660915   2.778077    2.4279277
  0.69682086 -3.0003173   2.1341784   0.32419717 -5.2817945   0.18809023
 -1.3016417   3.8344557  -0.87402123 -0.26100433  2.8857462  -2.725345
 -2.5024219  -0.70686543 -0.4838663  -2.2535524   0.23617841  3.329134
  3.9053504  -1.9609474  -3.4581995   1.2530506  -2.079397    1.6266809
  0.23296945  1.4600109  -1.9104419   0.80835503 -0.13650164  3.355157
  2.4561696   0.6016032  -1.0312346   1.6474588   1.320931    1.4579619
  1.8017172  -3.5526018   1.2293625   4.798621   -3.5554793   0.5800354
  3.7429204  -0.4906999  -1.3069346  -1.0603447  -0.95469594 -0.35445935
 -1.7658769  -3.2370284  -2.2224278  -0.56134427 -0.46095294  2.8492029
  2.7202766  -3.3692176   1.1739812  -1.9770668   0.37050596  1.1764477
 -0.27834406  5.033905    0.09570877 -0.5670941  -2.1803875  -0.9094422
  1.0485793   0.03497482 -2.07145    -0.8045679  -1.8192968   2.6160874
  0.5630188  -0.45463613 -0.22750562  2.2233796   3.4276621  -0.8689221
  1.5558586  -0.39026013 -1.1843458  -3.378433   -4.2200727   1.6359595
  2.27458    -1.6011585  -0.89109504  2.3993087 ]

原文地址:https://www.cnblogs.com/Micang/p/10367603.html

时间: 2024-11-11 09:17:29

利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块的相关文章

利用朴素贝叶斯分类算法对搜狐新闻进行分类(python)

数据来源  https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息格式说明:<doc><url>页面URL</url><docno>页面ID</docno><contenttitle>页面标题</contenttitle><content>页面内容</conten

搜狐自媒体成搜狐新闻客户端战略核心

在移动互联网市场,四大门户都将移动新闻客户端最为战略高地之一,尤其是搜狐,已将新闻APP的发展视为移动战略核心.相比其他新闻APP,搜狐新闻客户端的最突出亮点则在于活络的搜狐自媒体战略. 纵观目前国内主流的新闻客户端产品,搜狐最为重视自媒体团队建设,尤其是在今年3月成立的国内首个美食自媒体联盟,张朝阳亲自为其助阵显示其对新闻客户端的重要性,随后有关搜狐吃货自媒体联盟的运转成为了业界关注的话题. 可能很多人有疑惑,为什么搜狐要先搞一个"吃货自媒体联盟",此前我曾在<搜狐新闻客户端为

48岁单身女与60条流浪狗为伴续:多人向其示爱-搜狐新闻

48岁单身女与60条流浪狗为伴续:多人向其示爱-搜狐新闻 来源:搜狐网 更新时间:2015-04-14 06:43:05 分类:新闻 关键词:流浪狗,示爱 收到示爱电话,王国英既感动又有些哭笑不得.南都记者 陈坤荣 摄 "珠海48岁单身女与60条流浪狗'为伍"追踪 南都讯 记者杨亮 珠海48岁"狗妈妈"王国英放弃记者的工作,不结婚,不生小孩,十余年与60多条流浪狗为伴的动人故事9日经南都披露后引发广泛关注.全国各地不少人士近日纷纷打电话.发短信大胆示爱,让王国英感到

本溪市委书记冮瑞任辽宁省副省长(图)-搜狐新闻

本溪市委书记?瑞任辽宁省副省长(图)-搜狐新闻 来源:搜狐网 更新时间:2015-04-14 08:38:14 分类:新闻 关键词:副省长,市委 ?瑞,男,汉族,1958年5月生,辽宁彰武人,在职研究生学历.1980年2月参加工作,1984年10月入党. 1986.11 先后担任辽宁省商业厅计划业务处副处长.处长和省贸易厅市场处处长等职务 1995.12 辽宁省经贸委副主任.党组成员 2002.12 辽宁省经贸委副主任.党组成员,省口岸办主任(正厅级) 2005.05 辽宁省经委副主任.党组副书

Android 模仿搜狐新闻的ViewpagerIndicator

好久没写博客了,今天没事怒更一记. 如标题今天我们来模仿一下搜狐新闻,先上个效果图. 效果图上完之后再上个博客,我也是从这里得到的启发http://blog.csdn.net/qibin0506/article/details/42046559 1,接下来我们就来分析一下这个效果 下面的内容应该是用viewpager,头部的选项卡我们用一个LinearLayout+HorizontalScrollView也可以实现,滚动效果的话我们可以用到我们学会的scrollTo,大致的思路理清,我们就开始码

搜狐新闻APP是如何使用HUAWEI DevEco IDE快速集成HUAWEI HiAI Engine

6月12日,搜狐新闻APP最新版本在华为应用市场正式上线啦! 那么,这一版本的搜狐新闻APP有什么亮点呢? 先抛个图,来直接感受下-- ? 模糊图片,瞬间清晰! 效果杠杠的吧. 而藏在这项神操作背后的幕后操手, 竟然是HUAWEI HiAI Engine的图像超分辨率能力. 通过HUAWEI HiAI的图像超分能力处理的照片, 会更清晰,更锐利! 再看下图-- 就是这么任性~ 除此之外,HUAWEI HiAI Engine还提供了人脸识别. 图片识别.码识别.文本识别. 自然语音处理.自动语音识

Jsoup+HttpUnit爬取搜狐新闻

怎么说呢,静态的页面,但我也写了动态的接口支持,方便后续爬取别的新闻网站使用. 一个接口,接口有一个抽象方法pullNews用于拉新闻,有一个默认方法用于获取新闻首页: public interface NewsPuller { void pullNews(); // url:即新闻首页url // useHtmlUnit:是否使用htmlunit default Document getHtmlFromUrl(String url, boolean useHtmlUnit) throws Ex

处理搜狐新闻语料

数据集来源:http://www.sogou.com/labs/resource/cs.php 目的:得到title集合文本,content集合文本 代码: #python2 import chardet with open("news_sohusite_xml.dat",'r') as h: x=h.readlines() # print(x[3]) topics=x[3::6] print(len(topics)) contents=x[4::6] type = chardet.d

搜狐视频Redis私有云平台CacheCloud

一.CacheCloud是做什么的 CacheCloud提供一个Redis云管理平台:实现多种类型(Redis Standalone.Redis Sentinel.Redis Cluster)自动部署.解决Redis实例碎片化现象.提供完善统计.监控.运维功能.减少开发人员的运维成本和误操作,提高机器的利用率,提供灵活的伸缩性,提供方便的接入客户端 二.CacheCloud提供哪些功能 监控统计: 提供了机器.应用.实例下各个维度数据的监控和统计界面. 一键开启: Redis Standalon