scikit-learn：在实际项目中用到过的知识点（总结）

零、所有项目通用的：

http://blog.csdn.net/mmc2015/article/details/46851245（数据集格式和预测器）

http://blog.csdn.net/mmc2015/article/details/46852755（加载自己的原始数据）

（适合文本分类问题的整个语料库加载）

http://blog.csdn.net/mmc2015/article/details/46906409（5. 加载内置公用的数据）

（常见的很多公共数据集的加载，5.
Dataset loading utilities）

http://blog.csdn.net/mmc2015/article/details/46705983（Choosing the right estimator（你的问题适合什么estimator来建模呢））

（一张图告诉你，你的问题选什么estimator好，再也不用试了）

http://blog.csdn.net/mmc2015/article/details/46857949（训练分类器、预测新数据、评价分类器）

http://blog.csdn.net/mmc2015/article/details/46858009（使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参）

一、文本分类用到的：

http://blog.csdn.net/mmc2015/article/details/46857887（从文本文件中提取特征（tf、idf））

（CountVectorizer、TfidfTransformer）

http://blog.csdn.net/mmc2015/article/details/46866537（CountVectorizer提取tf都做了什么）

（深入解读CountVectorizer都做了哪些处理，指导我们做个性化预处理）

http://blog.csdn.net/mmc2015/article/details/46867773（2.5.2. 通过TruncatedSVD实现LSA（隐含语义分析））

（LSA、LDA分析）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46940373（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46941367（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic（续））

（词粒度关系：Paradigmatic(聚合关系：同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系：协同出现、用互信息挖掘)）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46771791（特征选择方法（TF-IDF、CHI和IG））

（介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用）

二、数据预处理用到的（4.
Dataset transformations）：

http://blog.csdn.net/mmc2015/article/details/46991465（4.1. Pipeline and FeatureUnion: combining estimators（特征与预测器结合；特征与特征结合））

（特征与预测器结合、特征与特征结合）

http://blog.csdn.net/mmc2015/article/details/46992105（4.2. Feature extraction（特征提取，不是特征选择））

（loading features form dicts、feature hashing、text feature extraction、image feature extraction）

http://blog.csdn.net/mmc2015/article/details/46997379（4.2.3. Text feature extraction）

（text feature extraction）

http://blog.csdn.net/mmc2015/article/details/47016313（4.3. Preprocessing data（standardi/normali/binari..zation、encoding、missing value））

（Standardization, or mean removal and variance scaling（标准化：去均值、除方差）、Normalization（正规化）、Feature Binarization（二值化）、Encoding
categorical features（编码类别特征）、imputation of missing values（归责缺失值））

http://blog.csdn.net/mmc2015/article/details/47066239（4.4. Unsupervised dimensionality reduction（降维））

（PCA、Random projections、Feature agglomeration（特征集聚））

http://blog.csdn.net/mmc2015/article/details/47069869（4.8. Transforming the prediction target (y)）

（Label binarization、Lable encoding（transform non-numerical labels to numerical labels））

三、其他重要知识点：

http://blog.csdn.net/mmc2015/article/details/46867597（2.5. 矩阵因子分解问题）

时间： 2024-11-11 12:46:43

scikit-learn：在实际项目中用到过的知识点（总结）的相关文章

项目中用到的那些方便流行的库-强烈推荐

简介本文主要对我们项目中的使用过的一些库流行库做些介绍,后期再对其中的一些库,如RxJava,RxAndroid,retrofit ,androidannotations,react-native,做细节的分析,到时候再附上使用的demo. 本文中提到的库,都是目前流行的,而且使用量比较大,是非常好用的库,强烈推荐~ Rx系列 ReactiveX是ReactiveExtensions的缩写,简写为Rx,Rx是一个编程模型,目标是提供一致的编程接口,帮助开发者更方便的处理异步数据流,Rx库支持

项目中用到的input 遇到的问题的归类

input 前几天为了这个词用在搜索框被我们总监喷,为了加强印象,我把它记录下来最原始的造型 <input type="text" value="搜索"/> 作成搜索框比较尴尬,因为鼠标放上去字居然还在 ,特难受解决此问题!!!第一中方法 <input type="text" value="搜索" id="sou"/> $("#sou").focus(

Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购.优惠券的检索:同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充. 我们的目的是学习出一个分类器(classifier),分类器可以理解为一个函数,

iOS 项目中用到的一些开源库和第三方组件

iOS 项目中用到的一些 iOS 开源库和第三方组件分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有更多的时间和精力能更加专注的做好自己的产品用到的组件 1.通过CocoaPods安装项目名称项目信息 AFNetworking 网络请求组件 FMDB 本地数据库组件 SDWebImage 多个缩略图缓存组件 UICKeyChainStore 存放用户账号密码组件 Reachability 监

项目中用了汉字正则表达式，出现异常：Cannot merge new index 65993 into a non-jumbo instruction

在项目中用了汉字正则表达式,编译并运行,Eclipse控制台输出如下异常信息: Unable to execute dex: Cannot merge newindex 65993 into a non-jumbo instruction!? Conversion to Dalvikformat failed: Unable to execute dex: Cannot merge new index 65993 into anon-jumbo instruction! 解决方法: 将dex.f

python在运维项目中用到的redis数据类型

先感叹下,学东西一定要活学活用! 我用redis也有几年的历史了,今个才想到把集合可以当python list用. 最近做了几个项目都掺杂了redis, 遇到了一些个问题和开发中提高性能的方法,这都分享出来,共同学习. 下面先简单讲讲Redis集合的数据类型. sadd,创建一个集合,并添加数据. [[email protected] ~]# redis-cli redis 127.0.0.1:6379> redis 127.0.0.1:6379> redis 127.0.0.1:6

Python之扩展包安装（scikit learn）

scikit learn 是Python下开源的机器学习包.(安装环境:win7.0 32bit和Python2.7) Python安装第三方扩展包较为方便的方法:easy_install + packages name 在官网 https://pypi.python.org/pypi/setuptools/#windows-simplified 下载名字为的文件. 在命令行窗口运行 ,安装后,可在python2.7文件夹下生成Scripts文件夹.把路径D:\Python27\Scripts

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类

scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import numpy as np from sklearn.pipeline import Pipeline from sklearn.linear_model import SGDClassifier from sklearn.grid_search import GridSearchCV from sk

我在一个前端项目中用js整理的一些通用方法，其中使用到的思想，主要就是约定了。

把名称和后台来的json数据约定起来,可以达到的效果就是可以将东西统一化,减少差异,提升模块等的通用性,此后就可以实现具体不同模块内容可以自动或拷贝赋值的方式顺带,这个前端项目中用到的控件,一般是手写,其他类型,比如菜单是 accordion.js这个手风琴控件 /* File Created: 十二月 18, 2014 *@Author iGO *@LastModify 2014-12-19 **/ //使用闭包,为了增加开发效率而写的自动化赋值的类 //todo: string对象添