Feature hashing相关 - 2

  1. Bloom filter

?
?

思路 用多个不同hash 来记录,比如遇到一个 love 有4个hash function 映射到4个bit位置,如果所有位置都是1 那么认为之前已经遇到love这个词(有一定错误概率),如果有任何一个位置是0,那么表明love这个词之前没有遇到(100%这样)

?
?

  1. Count Min Sketch

    思路类似。。 考虑一个近似的(允许一定错误)的类似 hash table的 <key,value>更新查询操作

    ?
    ?

论文 :An Improved Data Stream Summary: The Count-Min Sketch and its Applications

?
?

将输入的i 映射到 1-w , 采用d个hash function,开辟 w*d的空间

执行

?
?

查询i的时候,取最小值!

?
?

对于类似文本分类,线性svm这样我们关注的 dot(inner product点积)操作:

只给出结论

也就是说只要按照w长度的空间向量进行点积即可,然后对应d个hash function取其中的最小值,算法复杂度O(w+d)

?
?

时间: 2024-11-10 08:17:23

Feature hashing相关 - 2的相关文章

Feature hashing相关 - 1

考虑典型的文本分类,一个经典的方法就是 ? ? 分词,扫描所有特征,建立特征词典 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量 学习参数 w 存储学习参数 w , 存储特征映射词典 预测截断装载学习参数w,装载特征映射词典 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到特征向量 利用用学习参数w 对得到的特征向量 进行 点积 做出预测 ? ? ? ? Feature hashing怎么做? 不使用特征词典了,不用考虑额外的存储词典的空间,直接对特征进行has

特征哈希(Feature Hashing)

[本文链接:http://www.cnblogs.com/breezedeus/p/4114686.html,转载请注明出处] 我的博客主营地迁至github,欢迎朋友们有空去看看:https://breezedeus.github.io/,阅读体验好很多. 本文具体内容:https://breezedeus.github.io/2014/11/20/breezedeus-feature-hashing.html.

scikit-learn:4.2. Feature extraction(特征提取,不是特征选择)

http://scikit-learn.org/stable/modules/feature_extraction.html 带病在网吧里. ..... 写.求支持. .. 1.首先澄清两个概念:特征提取和特征选择( Feature extraction is very different from Feature selection ). the former consists in transforming arbitrary data, such as text or images, in

[笔记]FTRL与Online Optimization

1. 背景介绍 最优化求解问题可能是我们在工作中遇到的最多的一类问题了:从已有的数据中提炼出最适合的模型参数,从而对未知的数据进行预测.当我们面对高维高数据量的场景时,常见的批量处理的方式已经显得力不从心,需要有在线处理的方法来解决此类问题. 在CTR预估中,经常会用到经典的逻辑回归(LR),而对LR的各维度参数进行估计的时候会用到最优化算法,常见的比如梯度下降(Gradient Descent),牛顿法等等,这些方法都属于批量处理算法(Batch),当面对高维高数据量的场景时就显得有些笨重,因

ML简史

原文地址:http://www.52ml.net/15427.html 图 1 机器学习时间线 在科学技术刚刚萌芽的时候,科学家Blaise Pascal和Von Leibniz就想到了有朝一日能够实现人工智能.即让机器拥有像人一样的智能. 机器学习是AI中一条重要的发展线,在工业界和学术界都异常火爆.企业.大学都在投入大量的资源来做机器学习方面的研究.最近,机器学习在很多任务上都有了重大的进步,达到或者超越了人类的水平(例如,交通标志的识别[1],ML达到了98.98%,已超越了人类). 图1

Brief History of Machine Learning

Brief History of Machine Learning My subjective ML timeline Since the initial standpoint of science, technology and AI, scientists following Blaise Pascal and Von Leibniz ponder about a machine that is intellectually capable as much as humans. Famous

python data analysis | python数据预处理(基于scikit-learn模块)

原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Feature extration|特征提取 Preprocessing data|数据预处理 1 Dataset transformations scikit-learn provides a library of transformers, which may clean (see Preproce

[转]一个完整的Installshield安装程序实例

Installshield安装程序实例—基本设置一 前言 Installshield可以说是最好的做安装程序的商业软件之一,不过因为功能的太过于强大,以至于上手和精通都不是容易的事情,之前都是用Installshield的Project Assistant对付过去的,这次做这个安装程序,为了实现一些功能,必须写代码,国内外现成的资料很少,而且很多都语焉不详,自己反复啃了多次,对比Installshiel自带的help,才明白资料所表达的意思.这个安装程序虽然比较简陋,在行家眼里可能是小菜一碟,但

研发范围和时间的“信息透明化”之多项目多平台下的协作与流程

这是研发范围和时间"信息透明化"系列的第三篇文章,在<研发范围和时间的"信息透明化"之Redmine统一平台>中我们讨论了信息透明化的一种实现平台Redmine,在<研发范围和时间的"信息透明化"之协作与流程>中我们对如何基于一个产品/项目和一套信息管理平台进行信息透明化管理的协作与流程做了详细阐述.对研发信息透明化而言,现实中情况可能会比较复杂: 由于历史遗留问题等因素,团队中可能会使用一种以上的平台进行研发信息和过程管