(转)数据挖掘机器学习--数据集

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站

http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:

UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib 
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/ 
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html

关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

Download the Financial Data (~17.5M zipped file, ~67M unzipped data) 
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集:
http://www.kdnuggets.com/datasets/index.html

还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源如下(按应用领域划分):

Direct Marketing 
  KDD CUP 1998 Data 

GIS 
  Forest CoverType 

Indexing 
  Corel Image Features 
  Pseudo Periodic Synthetic Time Series 

Intrusion Detection 
  KDD CUP 1999 Data 

Process Control 
  Synthetic Control Chart Time Series 

Recommendation Systems 
  Entree Chicago Recommendation Data 

Robots 
  Pioneer-1 Mobile Robot Data 
  Robot Execution Failures 

Sign Language Recognition 
  Australian Sign Language Data 
  High-quality Australian Sign Language Data 

Text Categorization 
  20 Newsgroups Data 
  Reuters-21578 Text Categorization Collection 
  NSF Research Awards Abstracts 199 0-2003 

World Wide Web 
  Microsoft Anonymous Web Data 
  MSNBC Anonymous Web Data 
  Syskill Webert Web Data

这里又找到一个,在一个老外的blog上找到的。(儿童节前一天)
http://www.fs.fed.us/fire/fuelman/

来自互联网:转自:http://www.cnblogs.com/bobomouse/archive/2007/05/26/760513.html

时间: 2024-08-10 19:01:46

(转)数据挖掘机器学习--数据集的相关文章

数据挖掘的数据集资源 --转载

来自互联网: 1.气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2.几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/the

最流行的4个机器学习数据集【转】

机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度.所以会研究数据,会分析数据很重要.本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集. Iris Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集.通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类. 数据集特征: 多变量 记录数: 150 领域: 生活 属性特征:

hadoop大数据+炼数+云计算+数据挖掘+机器学习+推荐系统+算法+视频教程分享

[视频教程下载] 1.机器学习 2.大数据的统计学基础 3.大数据的矩阵基础 4.SAS数据分析视频教程 5.R语言全套视频教程 6.Clementine视频教程 7.数据挖掘教程 8.数据分析与SPSS(完整)共12周 9.大数据快速数据挖掘平台RapidMiner数据分析 10.数据挖掘电子书 11.Hadoop实战项目视频教程 12.推荐系统 [视频教程下载]

[机器学习&数据挖掘]机器学习实战决策树plotTree函数完全解析

在看机器学习实战时候,到第三章的对决策树画图的时候,有一段递归函数怎么都看不懂,因为以后想选这个方向为自己的职业导向,抱着精看的态度,对这本树进行地毯式扫描,所以就没跳过,一直卡了一天多,才差不多搞懂,才对那个函数中的plotTree.xOff的取值,以及计算cntrPt的方法搞懂,相信也有人和我一样,希望能够相互交流. 先把代码贴在这里: import matplotlib.pyplot as plt #这里是对绘制是图形属性的一些定义,可以不用管,主要是后面的算法 decisionNode

MNIST机器学习数据集

介绍 在学习机器学习的时候,首当其冲的就是准备一份通用的数据集,方便与其他的算法进行比较.在这里,我写了一个用于加载MNIST数据集的方法,并将其进行封装,主要用于将MNIST数据集转换成numpy.array()格式的训练数据.直接下面看下面的代码吧(主要还是如何用python去读取binnary file)! MNIST数据集原网址:http://yann.lecun.com/exdb/mnist/ Github源码下载:数据集(源文件+解压文件+字体图像jpg格式), py源码文件 文件目

【数据挖掘】数据集获取

UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用. http://archive.ics.uci.edu/ml/datasets.html CEIC:超过128个国家的经济数据,能精确查找GDP.进出口零售,销售等深度数据. http://www.ceicdata.com/zh-hans 国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据. http://data.stats.gov.cn/ 中国统计信息网:国家统计局官方网站,汇集了国民经济和社会发展统计信

数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归

     [python] view plain copy print? # coding: utf-8 # 利用 diabetes数据集来学习线性回归 # diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况. # 数据集中的特征值总共10项, 如下: # 年龄 # 性别 #体质指数 #血压 #s1,s2,s3,s4,s4,s6  (六种血清的化验数据) #但请注意,以上的数据是经过特殊处理, 10个数据中的每个都做了均值中心化处理,然后又用

数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法

[python] view plain copy print? #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Tue Feb  7 14:38:33 2017 电影推荐分析: 使用 亲和性分析方法 基于 Apriori算法 推荐电影 @author: yingzhang """ #读取数据集: http://grouplens.org/datasets/movielen

深度学习数据集汇总

原文链接:https://zhuanlan.zhihu.com/p/25138563 分门别类整理了一些网上的免费数据集,这是分类下载地址,希望能节约大家找数据的时间.欢迎数据达人加入QQ群 565136792 交流. 金融 美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票 深证创业板日线数据,1999.12.09 至 2016.06.0