机器学习之词语识别——记录

内部学习了下word2vec和fasttext,感觉还是挺有意思的,稍微记一点东西吧。

两个东西一脉相承,出自同一人手;

所以很多东西都是相似的,比如

  • 思路:用周围元素估计中心元素
  • 每次都要修改的策略;
  • 完全随机的初始

可能是因为没有应用到,暂时没有感觉太多,先记录些资料吧,后面会用到

word2vec

http://blog.csdn.net/itplus/article/details/37969519

这个系列可能是关于word2vec 最好的一个教程了

最著名的word2vec 论文:https://arxiv.org/pdf/1310.4546.pdf

fasttext 宏哥上次发那篇教程就很不错

https://heleifz.github.io/14732610572844.html

fasttext 与 word2vec 原理基本上完全一样,一点点区别就是把要预测的词改成了预测标签,并增加了n-gram 向量

论文参考: https://arxiv.org/pdf/1607.01759v2.pdf

官方git: https://github.com/facebookresearch/fastText

原文地址:https://www.cnblogs.com/andy1202go/p/8137426.html

时间: 2024-10-05 21:48:09

机器学习之词语识别——记录的相关文章

机器学习-SVM-手写识别问题

机器学习-SVM-手写识别问题 这里我们解决的还是之前用KNN曾经解决过的手写识别问题(https://www.cnblogs.com/jiading/p/11622019.html),但相比于KNN,SVM好的地方在于一旦我们的模型训练完成,我们就可以得到一个确定的决策超平面,当然这个超平面的w是用所有的支持向量来描述的,这就表示我们发布模型的时候只需要包括所有的支持向量在内就可以了,剩下所有的向量都可以舍弃,和每次都需要所有向量的KNN相比,这就大大减小了模型的大小. 注意,这里举的是一个二

验证码识别记录

研究了2天的验证码识别,虽然没有成功,但是从中还是收获了不少,这里记录一下,方便以后继续. 首先看图片:   我就是被这种"简单"的验证码给欺骗了,没有干扰,不用去噪点,看起来一切是那么的容易,三下五除二的批量下载了验证码,然后将图片切割开,就准备开始进行特征提取.训练及识别了. 最开始采用的方式是直线碰撞法,即随机在图片上生成若干直线,计算直线与字符的碰撞数量,以这个碰撞数量作为特征值,然后才用ANN神经网络进行训练和识别,最终的结果是,90%的字符被识别为了f(这个验证码的f变形太

《机器学习实战》问题记录

由于实验室研究方向变更,本文不再更新~ 本文是对<机器学习实战>进行学习时遇到问题记录. 由于书中代码使用Python2.X,而本机使用Python3.X,导致运行时有部分程序出现错误. 问题1: 问题位置: 3.2 在Python中使用Matplotlib注解绘制树形图(P45)--程序清单3-6 获取叶节点的数目和树的层数 问题: TypeError: 'dict_keys' object does not support indexing 分析:(参考文献:机器学习(四)-决策树) 在2

斯坦福大学Andrew Ng - 机器学习笔记(8) -- 推荐系统 &amp; 大规模机器学习 &amp; 图片文字识别

大概用了一个月,Andrew Ng老师的机器学习视频断断续续看完了,以下是个人学习笔记,入门级别,权当总结.笔记难免有遗漏和误解,欢迎讨论. 鸣谢:中国海洋大学黄海广博士提供课程视频和个人笔记,在此深表感谢!

Azure 机器学习算法速查 记录

简单翻译了一下Azure 机器学习算法速查表,方便日后查阅,同时作为自己的学习日程安排.清晰版参考docx翻译文档 中文参考:https://blog.csdn.net/nfzhlk/article/details/82725769 原文地址:https://www.cnblogs.com/NullPlayer/p/10059395.html

基于机器学习的花卉识别

一.思路 二.进程 三.参考 1.denny的学习专栏 这位大佬的博客里有关于tensorflow的很多内容,并且有花卉识别项目的源代码和介绍,很有参考价值.为了内容丢失,已装在到博客里. 2.Plain and Simple Estimators 这个小视频https://zhuanlan.zhihu.com/p/30722498简单介绍了该项目,并简单讲解了代码,github已follow. 原文地址:https://www.cnblogs.com/lijitao/p/12116131.ht

机器学习 - 命名实体识别之Hidden Markov Modelling

概述 命名实体识别在NLP的应用中也是非常广泛的,尤其是是information extraction的领域.Named Entity Recognition(NER) 的应用中,最常用的一种算法模型是隐式马可夫模型(Hidden Markov Modelling)- HMM.本节内容主要是通过介绍HMM的原理,以及应用HMM来做一个NER的实例演示. HMM原理解析 在解释HMM的原理之前,先引用几个HMM的基本概念,第一个是就是隐式状态,在本文中用H表示: 第二个就是显式状态,在本文中用大写

[机器学习]第三周记录

1.线性回归不适用于分类问题. 原因:1.单个样本对于线性回归可能会造成很大的影响. 2.函数的输出值可能非常大,非常离谱. 2.逻辑回归(logistic regression):一种分类算法.是广义线性回归,$h(x)=g(\theta^{T}x)$,其中 $g(x)=\frac{1}{1+e^{-x}}$ 被称为logistic函数,或sigmoid函数. 3.记号:$h_{\theta}(x)=P(y=1|x;\theta)$,即在theta参数和x的条件下,y等于1的概率. 4.决策边

如何开始使用 Java 机器学习

开始Java机器学习的最好工具是什么? 这个问题已经有一段时间了,但最近这些日子几乎每个人都在谈论人工智能和机器学习.这已经不再是一个保留给科学家和研究者的秘密,而是几乎实现于每一项新兴技术中. 在下面的章节中,我们会做一个java的机器学习的主要框架的快速概述,并证明Java机器学习是多么容易上手,不需要你另起炉灶或者从头开始创建算法. 人类的人工智能人工智能在一段时间以来是一个广泛并且炫酷的领域,但总是感觉有点难以触及,是特别为科学家所做.如果你想创造一个人工智能系统,你必须实现你自己的核心