数据挖掘的数据集资源 --转载

来自互联网：

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站

http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集：
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类，还有一个数据集是可以用的，即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧：

UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集：
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html

关联：
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA：
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因：
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据：
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集：
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类，还有一个数据集是可以用的，即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集：
http://www.kdnuggets.com/datasets/index.html

还有另外一个很好的资源网址为：http://kdd.ics.uci.edu/，里面包含的数据资源如下（按应用领域划分）：

Direct Marketing
KDD CUP 1998 Data

GIS
Forest CoverType

Indexing
Corel Image Features
Pseudo Periodic Synthetic Time Series

Intrusion Detection
KDD CUP 1999 Data

Process Control
Synthetic Control Chart Time Series

Recommendation Systems
Entree Chicago Recommendation Data

Robots
Pioneer-1 Mobile Robot Data
Robot Execution Failures

Sign Language Recognition
Australian Sign Language Data
High-quality Australian Sign Language Data

Text Categorization
20 Newsgroups Data
Reuters-21578 Text Categorization Collection
NSF Research Awards Abstracts 199 0-2003

World Wide Web
Microsoft Anonymous Web Data
MSNBC Anonymous Web Data
Syskill Webert Web Data

这里又找到一个，在一个老外的blog上找到的。（儿童节前一天）
http://www.fs.fed.us/fire/fuelman/

原文地址：https://www.cnblogs.com/crawer-1/p/8328839.html

时间： 2024-11-08 16:55:39

数据挖掘的数据集资源 --转载的相关文章

（转）数据挖掘机器学习--数据集

1.气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2.几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/ww

【数据挖掘】数据集获取

UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用. http://archive.ics.uci.edu/ml/datasets.html CEIC:超过128个国家的经济数据,能精确查找GDP.进出口零售,销售等深度数据. http://www.ceicdata.com/zh-hans 国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据. http://data.stats.gov.cn/ 中国统计信息网:国家统计局官方网站,汇集了国民经济和社会发展统计信

npm 国内镜像资源 --转载

npm 是node.js 环境下的包管理器,非常强大智能. 生活这这片神奇的土地上,各种奇葩手段屡见不鲜啊. 为什么要换源? npm 官方站点 http://www.npmjs.org/ 并没有被墙,但是下载第三方依赖包的速度让人着急啊! 就拿阿里云环境来说,有时npm 一个包也需要耐心等待......等待过去也许是原地踏步,也许就是安装失败. 幸运的是,国内有几个镜像站点可以供我们使用,本人在使用 http://www.cnpmjs.org/ 速度非常快,镜像站会实时更新,为我们节省了好多时间

数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归

[python] view plain copy print? # coding: utf-8 # 利用 diabetes数据集来学习线性回归 # diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况. # 数据集中的特征值总共10项, 如下: # 年龄 # 性别 #体质指数 #血压 #s1,s2,s3,s4,s4,s6 (六种血清的化验数据) #但请注意,以上的数据是经过特殊处理, 10个数据中的每个都做了均值中心化处理,然后又用

数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法

[python] view plain copy print? #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Tue Feb 7 14:38:33 2017 电影推荐分析: 使用亲和性分析方法基于 Apriori算法推荐电影 @author: yingzhang """ #读取数据集: http://grouplens.org/datasets/movielen

机器学习大数据数据挖掘推荐系统相关资源

原文:http://www.kuqin.com/shuoit/20151130/349205.html 书籍各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html 机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.html 视频浙大数据挖掘系列

数据挖掘学习清单（转载）

基础篇矩阵背后的现实意义概率分布无约束最优化方法拉格朗日乘子法和KKT条件推荐相关性检验协同过滤推荐算法分类朴素贝叶斯 LR SVM 聚类 KMeans DBScan CHAMELEON GMM 决策树 ID3 C4.5 Adaboost GBDT 关联规则挖掘 Apriori FP-Tree 序列标记 HMM1 HMM2 MEMM CRF 主题模型 PCA LSA pLSA LDA 神经网络 BP SOFM CNN

车道检测数据集

ROMA (ROad MArkings) Evaluation of Road Marking Feature Extraction view on IEEE.org [下文为摘要翻译] 本文提出了一种以评估车道线提取算法(从图像中提取出车道标记特征)的系统方法.尽管已经有很多车道线提取算法被提出,但有关该主题(评价方法)的讨论很少在文献中出现.大多数算法可以分解成三个步骤:提取道路标记的特征,估计几何标记模型,沿图像序列跟踪的几何模型的参数.本文的工作重点是第一步,即特征提取.本文提供了一个包

数据挖掘步骤

一.现在我主要讲解数据挖掘的基本规范流程数据挖掘通常需要数据收集,数据集成,数据规约,数据清理,数据变换,数据挖掘实施过程,模式评估和知识表示 1.数据收集:根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库.选择一种合适的数据存储和管理的数据仓库类型 2.数据集成:把不同来源,格式的数据进行分类 3.数据规约:当数据量和数据的值比较大的时候,我们可以用规约技术来得到数据集的规约表示,比如(数据值-数据平均值)/数据方差,这是数据就变小了很多但接近原数据的完整性,规约后数据挖掘的结

猜你喜欢

Winform软件，不要在线程里操作UI

对于Winform软件,不要在线程里操作UI,不要相信:StartForm.CheckForIllegalCrossThreadCalls = false; 于是,把所有的代码都改成主线程委托调用的方 ...

uitableView 选择跳转后再跳回来颜色不变问题

今天遇见过这个问题以前都没这方面需求所以没有遇见今天遇见了网上查了没有查到好吧只能说自己的问题但是还好kai哥到一句话就解决了 ! 就是在- (void)tableView:(UI ...

c#生产/消费RabbitMQ

public sealed class JsonSerializer { public static byte[] Serialize(object message) { return Encodin ...

JAVA——Java集合框架

1. 什么是框架:类库的集合 2.集合框架:用来表示和操作的统一的架构,包含了实现集合的接口与类 3.集合:存放数据的容器集合框架包含了两部分:一部分是接口,一部分是类 4.为什么会出现接口:因为集 ...

centos6.5没有eth0, 只有eth1, eth1无法上网

1. cat /etc/udev/rules.d/70-persistent-net/rules 2.将ATTR(address)=XXXXXXXX的内容替换文件/etc/sysconfig/ ...

多网卡绑定。。。bond实现

添加多网卡 vi /etc/sysconfig/network-scripts/ifcfg-bond0 DEVICE=bond0NAME=bond0TYPE=BondBONDING_MASTER=ye ...

GNU Radio: Multiple USRP configurations 配置多个USRP设备

Introduction 引言 Some USRP devices are capable of being grouped to form a single, virtual device. A s ...

阿里2015实习的一道题

#include<iostream> #include<vector> using namespace std; #define INF 1000 int zhao_zuixi ...

Application Loader提交ipa文件出现ERROR ITMS-90022问题解决方式

话说在提交app到AppStore时出现了一些问题,网上找了一些资料,但不并具体.因此我做了一个总结,方便我以后遇到时可查询. 也希望能帮助遇到这个问题的提供解决方式. ERROR ITMS-9002 ...

Spring约束

时间:2017-1-29 02:01 Appendix D. XML Schema-based configuration Prev Part VII. Appendices Next Appendi ...

GCD的深入理解

GCD 深入理解(一) 本文由@nixzhu翻译至raywenderlich的<grand-central-dispatch-in-depth-part-1> 虽然 GCD 已经出现过一段 ...

android学习——getContentPane()

说到getContentPane()这个方法,不得不说一下Frame和JFrame的一点区别了. JFrame继承自Frame,但是JFrame不能通过add方法直接添加组件,因为JFrame 不是一 ...

java分解质因数

1 package test; 2 3 import java.util.Scanner; 4 5 public class Test19 { 6 /** 7 * 分析:对n进行分解质因数,应先找到一 ...

谈谈移动端屏幕适配的几种方法

移动端web开发相对于PC端web开发,我们可以庆幸不用兼容那么多浏览器了,但是随之而来的却是各种屏幕尺寸的适配,个人觉得,比PC端还要费精力.在使用了腾讯优测进行软件测试后,问题得到了有效解决. 响 ...

cocos2d-x: 33种切换场景

[1]:CCTransitionCrossFade::create(时间,目标场景); //慢慢淡化到还有一场景 [2]:CCTransitionFade::create(时间,目标场景); //本场 ...

mysql数据库中查询汉字的拼音首字母

本人提供的方法有如下特点: 1.代码精简,使用简单,只要会基本的SQL语句就行2.不用建立mysql 函数等复杂的东西3.汉字库最全,可查询20902个汉字方法如下:1.建立拼音首字母资料表Sql代码 ...

extjs_03_grid(增加数据)

<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"% ...

其他窗体赋值给comboBox，并使赋的值处于选中状态（根据text获取selectedindex）

Form1 发货单位的这个下拉框comboBox1已经绑定数据库test表的name字段,里面有很多单位名称比如有:甲公司.乙公司... 1.Form1的comboBox1首先绑定数据库的数据表te ...

20150602 数字报没有显示

数字报没有显示的问题是方正的飞旋系统没有导入改FIV文件到韩昕电脑上,打开飞旋系统,导入/选择FIT文件,点击导入,然后导出发现韩昕电脑无法导入拷贝FIT文件和PDF文件到K盘,转发给前方小金处 ...

商城系统简单购物车结构设计代码实现

最近公司做了一个商城系统,分享一下购物车的设计. public class ShopCart { private string UserId; public List<CartItem> ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.041 s.