有监督和无监督的特征选择方法

特征选择实质上包括两个部分:特征词的选择和特征词权重的计算。

特征词选择的方法分为有监督的方法和无监督的方法。

有监督的方法包括IG和CHI,无监督的方法包括Document   Frequency (DF),  Term  Strength  (TS)和 Entropy-based  (En)。

可以参考https://www.aaai.org/Papers/ICML/2003/ICML03-065.pdf

时间: 2024-10-11 20:44:34

有监督和无监督的特征选择方法的相关文章

转:Deep learning系列(十五)有监督和无监督训练

http://m.blog.csdn.net/article/details?id=49591213 1. 前言 在学习深度学习的过程中,主要参考了四份资料: 台湾大学的机器学习技法公开课: Andrew NG的深度学习教程: Li feifei的CNN教程: caffe官网的教程: 对比过这几份资料,突然间产生一个困惑:台大和Andrew的教程中用了很大的篇幅介绍了无监督的自编码神经网络,但在Li feifei的教程和caffe的实现中几乎没有涉及.当时一直搞不清这种现象的原因,直到翻阅了深度

【转】有监督训练 & 无监督训练

原文链接:http://m.blog.csdn.net/article/details?id=49591213 1. 前言 在学习深度学习的过程中,主要参考了四份资料: 台湾大学的机器学习技法公开课: Andrew NG的深度学习教程: Li feifei的CNN教程: caffe官网的教程: 对比过这几份资料,突然间产生一个困惑:台大和Andrew的教程中用了很大的篇幅介绍了无监督的自编码神经网络,但在Li feifei的教程和caffe的实现中几乎没有涉及.当时一直搞不清这种现象的原因,直到

深度学习之无监督训练

最近看了一下深度学习的表征学习,总结并记录与一下学习笔记. 1.在标签数据集中做的监督学习容易导致过拟合,半监督学习由于可以从无标签数据集中学习,可以有一定概率化解这种情况. 2.深度学习所使用的算法不能太复杂,否则会加大计算复杂度和工作量. 3.逐层贪婪的无监督预训练有这几个特点: (1)贪婪:基于贪婪算法,独立优化问题解的各方面,但是每次只优化一个方面,而不是同时同步全局优化. (2)逐层:各个独立方面可以看做网络的每一层,每次训练的第i层,都会固定前面的所有层. (3)无监督:每次训练都是

【转-知乎】有监督 无监督 标签的解释,对我自己而言,比较容易懂(收藏)

作者:赵杨链接:https://www.zhihu.com/question/23194489/answer/75555668来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 机器(计算机)学习分为有监督和无监督两个类,基本上可以从他们会不会得到一个特定的标签(label)输出来区分.这里标签指的是用来描述某一个物体属性的话语.比如人类有两种,我们要区分这两种人,就根据生理特征,分别对两种人打上标签,一种是[男人],另一种是[女人].有监督学习(Supervised

【转载】 无监督特征学习——Unsupervised feature learning and deep learning

无监督特征学习——Unsupervised feature learning and deep learning 分类: Compression Computer Vision Machine Learning 杂感2012-07-31 15:48 36848人阅读 评论(61) 收藏 举报 目录(?)[+] 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accurac

itorch无监督聚类

cmd = torch.CmdLine() cmd:text() cmd:text()用来在terminal上显示运行信息 cmd:option('-dir', 'outputs', 'subdirectory to save experiments in') cmd:option用来接受运行时的参数,第一个是参数名称,第二个是默认输入参数,第三个是备注. 1. 处理数据: dofile '1_data.lua' dofile和require的功能差不多,不过require不会重新加载,dofi

极大似然估计(Maximum Likelihood)与无监督

1. 极大似然与最大概率 因为不是科班出身,所以最初接触极大似然的时候,总是很奇怪为什么叫极大似然,而不直接叫做最大概率? 后来才知道极大似然是用来估计未知参数的,而最大概率的表述更适合于已知参数的情况下,求解出现最大概率的变量的,举例如下: Max L(θ) = θ1x1+θ2x2+θ3x3 Max P(x) = θ1x1+θ2x2+θ3x3 Max L(θ)是拥有多组观测样本X时,估计θ参数的方法,而Max P(x)正好相反,是已知θ时,求解什么样的x出现会使得P最大. 2.  极大似然与无

将句子表示为向量(上):无监督句子表示学习(sentence embedding)

1. 引言 word emedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展.既然词可以embedding,句子也应该可以(其实,万物皆可embedding,Embedding is All You Need ^_^).近年来(2014-2018),许多研究者在研究如何进行句子表示学习,从而获得质量较高的句子向量(sentence embedding).事实上,sentence embedding在信息检索,句子匹配,句子分类等任务上均有广泛应用,并且

【Machine Translation】无监督神经机器翻译论述

Unsupervised NMT 概述 神经机器翻译系统取得了很好的翻译水平,但非常依赖于平行语料.目前已经有利用大量单语数据训练模型的研究,这其中包括: 仅仅由两份单语语料(不平行)训练出双语词典.这个的核心是学习一个旋转矩阵W,使得两份语料的词向量空间对齐,再进行一些调整更好的对齐两词向量空间,最后进行单词到单词的翻译,即生成了双语词典. 对偶学习的思想.有些研究里也提出迭代后向翻译,但思想是类似的,即通过翻译模型生成假的平行语料,再利用该平行语料训练模型,迭代此过程. 利用第三种语言.翻译