Windows3.5下对维基百科语料用word2vec进行训练寻找同义词相似度

首先把需要下载的东西都列出来

1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2,或者在这里找https://dumps.wikimedia.org/zhwiki/。这个文件只包含了标题和正文,不包含词条之间的链接信息,大小约为1.3G。

2.WikiExtractor:用于从原始的xml文件中提取出标题和正文。地址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py。因为这个文件不依赖其他文件和库,就直接在本地新建一个脚本,再把WikiExtractor.py中的源码复制过来就行了。

3.繁体简体转换工具:由于词条原文本中可能混杂了繁体和简体,需要统一转换为简体。Linux下可以直接wget后在终端中使用,windows版本只能手动下载了,地址https://code.google.com/archive/p/opencc/downloads。下完直接解压就可以了。

此时有三个文件,分别是zhwiki-latest-pages-articles.xml.bz2,WikiExtractor.py,和文件夹opencc-0.4.2(链接:https://bintray.com/package/files/byvoid/opencc/OpenCC)。

1、首先我们要获得维基百科的中文语料库,这个文件非常大,需要慢慢下载;

下载地址为:https://dumps.wikimedia.org/zhwiki//

2、通过https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

我们就得到了1.45GB的中文语料zhwiki-latest-pages-articles.xml.bz2

3、里面内容以xml格式保存,所以我们后续还是需要做处理的(转换为text文档)

这里抽取有两种方法:

(1)process_wiki.py 源码进行抽取(但是我试了好几次都没有成功,导入之后解析的text文件没有反应,倒是输出了一堆文档,不知道怎么回事)

训练方法:在文件目录下python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

(2)WikiExtractor.py源码训练:https://github.com/attardi/wikiextractor/edit/master/WikiExtractor.py

  命令行进入当前文件夹输入python WikiExtractor.py -b 500M -o extracted zhwiki-latest-pages-articles.xml.bz2

训练结果如图(大概需要一个多小时吧,后面非常慢):

 

原文地址:https://www.cnblogs.com/gcter/p/8695842.html

时间: 2024-08-01 20:37:29

Windows3.5下对维基百科语料用word2vec进行训练寻找同义词相似度的相关文章

chrome 下使用维基百科

维基百科是非常好用的查询工具生活在国内怎么使用了下面提供几种方法:  使用环境:  window 浏览器推荐: chrome      1. 插件:        使用wikiwand插件 Wikiwand是一款能够改变维基百科条目界面的软件,2013年由利奥尔·格罗斯曼和依            兰·列文创建,2014年8月正式上线. 软件界面包含工具栏菜单.导航栏.其他语言版本的个性化链接.新版面和链接条目            的预览.内容列表将在左侧不断显示 格罗斯曼开发软件是为了克服维

开源共享一个训练好的中文词向量(语料是维基百科的内容,大概1G多一点)

使用gensim的word2vec训练了一个词向量. 语料是1G多的维基百科,感觉词向量的质量还不错,共享出来,希望对大家有用. 下载地址是http://pan.baidu.com/s/1pLGlJ7d 密码:hw47 包含训练代码.使用词向量代码.词向量文件(3个文件) 因为机器内存足够,也没有分批训练.所以代码非常简单.也在共享文件里面,就不贴在这里了.

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助.如果有错误或不足之处,欢迎之处:如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图. 一. 维基百科和Infobox 你可能会疑惑Infobox究竟是个什么东西呢?下面简单介绍. 维基百科作为目前规模最大和增长最快的开放式的在线百科系统,其典型

使用JWPL (Java Wikipedia Library)操作维基百科数据

使用JWPL (Java Wikipedia Library)操作维基百科数据 1. JWPL介绍 JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的Java API包,提供了快速访问维基百科中包含的消息,如重定向.类别.文章和链接结构的结构性访问接口.它提供的DataMachine 工具类可快速解析wiki格式文件,生成mysql的数据txt文件,可通过mysqlimport 导入到本地数据库中. JWPL介绍官网:https://dkpro.gi

维基百科的存在是一个奇迹

这两年,"情怀"这两个字的内涵在国人心中可能已经发生了变异:这多半是归因于一些商业结构在营销过程中对于这个曾经美好词汇的挟持.但是如果把"情怀"和"维基百科"这两个词汇联系在一起,也许人们依然会心悦诚服地敛容以对,收起看客式的调侃和讽刺,重新回到自己内心对于真正意义上的情怀的呼唤和敬畏. 维基百科,这个世界上最大的不以盈利为目的的网站,已经伴随着整个互联网的发展走过了整整15个年头.这期间有多少与互联网相关的公司或雄起成为巨头,或衰落黯然倒闭,沧

维基百科一年烧四千多万美元 太会花钱?才不是呢!

http://www.nowamagic.net/librarys/news/detail/1434近期你如果查阅维基百科,可能会看到页面顶部有一条小提示,是的,一年一度的维基百科社会捐款又开始了.作为一家非营利组织,维基的帐目是公开的,对于 12/13 财年(2012 年 7 月至 2013 年 6 月),维基在其页面上公开出来的运营预算为 4,200 万美金.这个数字在 Quora 上受到了一位提问者的强烈质疑,他认为维基由志愿者维护,页面形式也绝非花哨到需要大价钱设计维护,那么大家捐的钱都

业务流程建模标记法(维基百科)

原文 https://zh.wikipedia.org/wiki/%E4%B8%9A%E5%8A%A1%E6%B5%81%E7%A8%8B%E5%BB%BA%E6%A8%A1%E6%A0%87%E8%AE%B0%E6%B3%95 业务流程建模标记法(BPMN, Business Process Modeling Notation)[译注1]是工作流中特定业务流程的图形化表示法.它由业务流程管理倡议组织(BPMI, Business Process Management Initiative)开发

sql 防注入 维基百科

http://zh.wikipedia.org/wiki/SQL%E8%B3%87%E6%96%99%E9%9A%B1%E7%A2%BC%E6%94%BB%E6%93%8A SQL攻击(SQL injection,台湾称作SQL资料隐码攻击),简称注入攻击,是发生于应用程序之数据库层的安全漏洞.简而言之,是在输入的字符串之中注入SQL指令,在设计不良的程序当中忽略了检查,那么这些注入进去的指令就会被数据库服务器误认为是正常的SQL指令而运行,因此遭到破坏. 有部份人认为SQL注入攻击是只针对Mi

二叉树学习四:红黑树(参考维基百科)

1.红黑树描述:它或是一颗空树,或是具有下面属性的二叉搜索树: 1)节点非红即黑: 2)根节点是黑色: 3)所有NULL结点称为叶子节点,且认为颜色为黑 : 4)所有红节点的子节点都为黑色: 5)从任一节点到其叶子节点的所有路径上都包含相同数目的黑节点. 插入和删除操作时间可以保持为 O(log n) 次,图1(本文图来自维基百科)是一个具体的红黑树: 图1:红黑树 2.红黑树插入:假设插入节点为红,根据邻近结点的颜色进行具体调整: 1)为空树,直接插入,把颜色变换为黑: 2)插入结点的父结点为