scikit-learn:在实际项目中用到过的知识点(总结)

零、所有项目通用的:

http://blog.csdn.net/mmc2015/article/details/46851245数据集格式和预测器

http://blog.csdn.net/mmc2015/article/details/46852755(加载自己的原始数据

适合文本分类问题的 整个语料库加载)

http://blog.csdn.net/mmc2015/article/details/46906409(5. 加载内置公用的数据

(常见的很多公共数据集的加载5.
Dataset loading utilities

http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢)

一张图告诉你,你的问题选什么estimator好,再也不用试了)

http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预测新数据、评价分类器

http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参

一、文本分类用到的:

http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件中提取特征(tf、idf)

CountVectorizerTfidfTransformer

http://blog.csdn.net/mmc2015/article/details/46866537(CountVectorizer提取tf都做了什么

深入解读CountVectorizer都做了哪些处理,指导我们做个性化预处理

http://blog.csdn.net/mmc2015/article/details/46867773(2.5.2. 通过TruncatedSVD实现LSA(隐含语义分析)

(LSA、LDA分析)

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46940373(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46941367(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续)

(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46771791(特征选择方法(TF-IDF、CHI和IG)

(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用

二、数据预处理用到的4.
Dataset transformations

http://blog.csdn.net/mmc2015/article/details/46991465(4.1. Pipeline and FeatureUnion: combining estimators(特征与预测器结合;特征与特征结合)

特征与预测器结合、特征与特征结合

http://blog.csdn.net/mmc2015/article/details/46992105(4.2. Feature extraction(特征提取,不是特征选择)

loading features form dicts、feature hashing、text feature extraction、image feature extraction

http://blog.csdn.net/mmc2015/article/details/46997379(4.2.3. Text feature extraction

text feature extraction

http://blog.csdn.net/mmc2015/article/details/47016313(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value)

Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、Feature Binarization(二值化)、Encoding
categorical features
(编码类别特征)、imputation of missing values(归责缺失值))

http://blog.csdn.net/mmc2015/article/details/47066239(4.4. Unsupervised dimensionality reduction(降维)

PCA、Random projections、Feature agglomeration(特征集聚))

http://blog.csdn.net/mmc2015/article/details/47069869(4.8. Transforming the prediction target (y)

Label binarizationLable encoding(transform non-numerical labels to numerical labels)

三、其他重要知识点:

http://blog.csdn.net/mmc2015/article/details/46867597(2.5.  矩阵因子分解问题

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-11 03:38:08

scikit-learn:在实际项目中用到过的知识点(总结)的相关文章

项目中用到的那些方便流行的库-强烈推荐

简介 本文主要对我们项目中的使用过的一些库流行库做些介绍,后期再对其中的一些库,如RxJava,RxAndroid,retrofit ,androidannotations,react-native,做细节的分析,到时候再附上使用的demo. 本文中提到的库,都是目前流行的,而且使用量比较大,是非常好用的库,强烈推荐~ Rx系列 ReactiveX是ReactiveExtensions的缩写,简写为Rx,Rx是一个编程模型,目标是提供一致的编程接口,帮助开发者更方便的处理异步数据流,Rx库支持

项目中用到的input 遇到的问题的归类

input 前几天 为了这个词 用在搜索框被我们总监喷,为了加强印象,我把它记录下来 最原始的造型 <input type="text" value="搜索"/> 作成搜索框 比较尴尬,因为鼠标放上去 字居然还在 ,特难受 解决此问题!!!第一中方法 <input type="text" value="搜索" id="sou"/> $("#sou").focus(

Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购.优惠券的检索:同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充. 我们的目的是学习出一个分类器(classifier),分类器可以理解为一个函数,

iOS 项目中用到的一些开源库和第三方组件

iOS 项目中用到的一些 iOS 开源库和第三方组件 分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有更多的时间和精力能更加专注的做好自己的产品 用到的组件 1.通过CocoaPods安装 项目名称 项目信息 AFNetworking 网络请求组件 FMDB 本地数据库组件 SDWebImage 多个缩略图缓存组件 UICKeyChainStore 存放用户账号密码组件 Reachability 监

项目中用了汉字正则表达式,出现异常:Cannot merge new index 65993 into a non-jumbo instruction

在项目中用了汉字正则表达式,编译并运行,Eclipse控制台输出如下异常信息: Unable to execute dex: Cannot merge newindex 65993 into a non-jumbo instruction!? Conversion to Dalvikformat failed: Unable to execute dex: Cannot merge new index 65993 into anon-jumbo instruction! 解决方法: 将dex.f

python在运维项目中用到的redis数据类型

先感叹下,学东西一定要活学活用!   我用redis也有几年的历史了,今个才想到把集合可以当python list用.  最近做了几个项目都掺杂了redis, 遇到了一些个问题和开发中提高性能的方法,这都分享出来,共同学习. 下面先简单讲讲Redis集合的数据类型. sadd,创建一个集合,并添加数据. [[email protected] ~]# redis-cli redis 127.0.0.1:6379>  redis 127.0.0.1:6379>  redis 127.0.0.1:6

Python之扩展包安装(scikit learn)

scikit learn 是Python下开源的机器学习包.(安装环境:win7.0 32bit和Python2.7) Python安装第三方扩展包较为方便的方法:easy_install + packages name 在官网 https://pypi.python.org/pypi/setuptools/#windows-simplified 下载名字为 的文件. 在命令行窗口运行 ,安装后,可在python2.7文件夹下生成Scripts文件夹.把路径D:\Python27\Scripts

scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类

scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import numpy as np from sklearn.pipeline import Pipeline from sklearn.linear_model import SGDClassifier from sklearn.grid_search import GridSearchCV from sk

我在一个前端项目中用js整理的一些通用方法,其中使用到的思想,主要就是约定了。

把名称和后台来的json数据约定起来,可以达到的效果就是可以将东西统一化,减少差异,提升模块等的通用性,此后就可以实现具体不同模块内容可以自动或拷贝赋值的方式 顺带,这个前端项目中用到的控件,一般是手写,其他类型,比如菜单是  accordion.js这个手风琴控件 /* File Created: 十二月 18, 2014  *@Author iGO *@LastModify 2014-12-19 **/ //使用闭包,为了增加开发效率而写的自动化赋值的类 //todo: string对象 添