跨语言论文阅读笔记———第一篇

Cross-lingual Transfer of Named Entity Recognizers
without Parallel Corpora

1.布朗聚类:

布朗聚类是一种针对词汇的聚类方法,Input是一系列的文章或者句子,Output有两种:

第一种是:一系列的词组,具体多少个类看你之前的设定:

第二种是:每个词都有一长串的二进制码,用类似霍夫曼编码的方式对每个词进行编码

可以显而易见的是,前缀相似度更高的词就越相近

什么样的词汇相似呢?一个直觉的想法就是:相似的词出现在相似的位置。

更精确的说法就是:相似词的前驱词和后继词的分布相似,也就是它前面的词和后面的词出现得是相似的。

时间: 2024-07-28 13:47:02

跨语言论文阅读笔记———第一篇的相关文章

《构建之法》阅读笔记第一篇——软件工程概论

1.软件=程序+软件工程 程序(源代码)是一行行的代码,是建立在数据结构上的一些算法.程序还要对数据进行操作,这些数据有的是静态的(如软件图标.提示信息),有的是动态的(如程序生成的随机数字.程序通过网络下载的数据.用户的文字或语音输入等). 光有代码和静态数据是不行的,工程师要把她们构件为机器能懂的可执行代码.一个复杂的软件不但要有合理的软件架构.软件设计与实现,还要有各种文件和数据来描述各个程序文件之间的依赖关系.编译参数.链接参数等等.这些都是软件构建的过程. 软件团队的成员每天都修改源代

《javascript权威指南》读书笔记——第一篇

<javascript权威指南>读书笔记--第一篇 金刚 javascript js javascript权威指南 由于最近想系统学习下javascript,所以开始在kindle上看这本书来补充下. 今天是今年的196天,由于我之前承诺过,每天分享读书笔记,只是之前分享的是大众读物,所以随手分享到kindle阅读群里了.但是现在读的是技术类书籍,分享到kindle读书群不太合适,所以还是以博客的形式分享.这样子,一个链接,大家感兴趣了就点开看看,不感兴趣了,就不点开. 其实这篇文章应该是昨天

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

Camel In Action 阅读笔记 第一章 认识Camel 1.1 Camel 介绍

1.1 Camel 介绍 Camel 是一个为了您的项目集成变得高效有趣的集成框架,Camel 项目在2007年初开始的,相对来说它还比较年轻,但它已然是一个非常成熟的开源项目,它所使用的是Apache 2开源License, 其背后的社区非常强大. Camel主要目的就是简化集成,当您用心读完本书以后,您会很感谢Camel并把它做为您的一个必需技能. Apache Camel这个项目之所以命名为Camel的主要原因是因为简单好记,有一个小道说法是项目创建者之一在吸了一个叫"骆驼"牌的

Linux学习笔记——第一篇——Ubuntu安装与操作

笔者是Windows的使用者,由于Coding的需要以及在Linux下开发的方便,所以开始使用Linux. 当然笔者还是割舍不下Windows的,毕竟很多通讯工具等软件以及游戏在Linux下是没有发行的,所以笔者使用了虚拟机啊. 下面给出简单的安装过程. 1.下载虚拟机软件,笔者比较喜欢VMPlayer,因为它比较轻便且免费,并且很好的支持了拖拽复制功能(VM TOOL),当然也可以使用如VirtualBox.VPC等 链接:https://my.vmware.com/web/vmware/fr

辛星云计算笔记第一篇云计算的概念

云计算的优点: (1)从用户体验的角度看.对个人用户来说,云计算时代会出现越来越多的基于互联网的服务,我们无需客户端,只需要使用浏览器就能够轻松访问,而且我们可以把文档等数据放在云中来共享和协作,我们可以共同编辑一篇文章,然后通过严格的权限管理机制来确保协作是安全的.对企业用户而言,可以利用云技术优化现有的IT服务,使得现有的IT服务更可靠.更自动化,更可以将企业的IT服务整体迁移到云上,使得企业可以卸下维护IT服务的重担,从而更加专注其主营业务. (2)从成本的角度看.对个人用户而言,我们使用

深入理解 C 指针阅读笔记 -- 第一章

上周末,我在图书馆看到了这本很薄的书 -- <深入理解 C 指针>       这本书中写的内容,个人感觉适合一个初学者,内容不是很难.我也读了下,对每一章都做了笔记,笔记都是用代码的形式贴出来. Chapter1.h #ifndef __CHAPTER_1_ #define __CHAPTER_1_ /*<深入理解C指针>学习笔记 -- 第一章*/ /*一个数如果是无符号的,那么尽量去选用 size_t 类型*/ /*使用 size_t 类型的时候一定要用对了输出格式*/ voi

C++primer(第四版)复习笔记—第一篇:基本语言

再次阅读primer一方面是为了查漏补缺,另一方面也是更加深入的理解C++的思想精髓.在此记录复习中记录的各知识细节及理解,以便后续温故之用. 第一张:快速入门 1. for语句: for(初始化语句:条件测试语句:条件修改表达式){ 语句体 } .执行顺序:初始化语句在最开始执行一次,然后执行条件测试语句,若成立则执行语句体:然后再执行条件修改表达式,再执行条件测试语句,成立则继续,反之则退出for语句. 2. if else语句缩进: if(0==i){ cout<<"i==0&