数据挖掘的数据集资源 --转载

来自互联网:

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站

http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:

UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib 
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/ 
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html

关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

Download the Financial Data (~17.5M zipped file, ~67M unzipped data) 
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集:
http://www.kdnuggets.com/datasets/index.html

还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源如下(按应用领域划分):

Direct Marketing 
  KDD CUP 1998 Data 

GIS 
  Forest CoverType 

Indexing 
  Corel Image Features 
  Pseudo Periodic Synthetic Time Series 

Intrusion Detection 
  KDD CUP 1999 Data 

Process Control 
  Synthetic Control Chart Time Series 

Recommendation Systems 
  Entree Chicago Recommendation Data 

Robots 
  Pioneer-1 Mobile Robot Data 
  Robot Execution Failures 

Sign Language Recognition 
  Australian Sign Language Data 
  High-quality Australian Sign Language Data 

Text Categorization 
  20 Newsgroups Data 
  Reuters-21578 Text Categorization Collection 
  NSF Research Awards Abstracts 199 0-2003 

World Wide Web 
  Microsoft Anonymous Web Data 
  MSNBC Anonymous Web Data 
  Syskill Webert Web Data

这里又找到一个,在一个老外的blog上找到的。(儿童节前一天)
http://www.fs.fed.us/fire/fuelman/

原文地址:https://www.cnblogs.com/crawer-1/p/8328839.html

时间: 2024-11-08 16:55:39

数据挖掘的数据集资源 --转载的相关文章

(转)数据挖掘机器学习--数据集

1.气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2.几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/ww

【数据挖掘】数据集获取

UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用. http://archive.ics.uci.edu/ml/datasets.html CEIC:超过128个国家的经济数据,能精确查找GDP.进出口零售,销售等深度数据. http://www.ceicdata.com/zh-hans 国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据. http://data.stats.gov.cn/ 中国统计信息网:国家统计局官方网站,汇集了国民经济和社会发展统计信

npm 国内镜像资源 --转载

npm 是node.js 环境下的包管理器,非常强大智能. 生活这这片神奇的土地上,各种奇葩手段屡见不鲜啊. 为什么要换源? npm 官方站点 http://www.npmjs.org/ 并没有被墙,但是下载第三方依赖包的速度让人着急啊! 就拿阿里云环境来说,有时npm 一个包也需要耐心等待......等待过去也许是原地踏步,也许就是安装失败. 幸运的是,国内有几个镜像站点可以供我们使用,本人在使用 http://www.cnpmjs.org/ 速度非常快,镜像站会实时更新,为我们节省了好多时间

数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归

     [python] view plain copy print? # coding: utf-8 # 利用 diabetes数据集来学习线性回归 # diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况. # 数据集中的特征值总共10项, 如下: # 年龄 # 性别 #体质指数 #血压 #s1,s2,s3,s4,s4,s6  (六种血清的化验数据) #但请注意,以上的数据是经过特殊处理, 10个数据中的每个都做了均值中心化处理,然后又用

数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法

[python] view plain copy print? #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Tue Feb  7 14:38:33 2017 电影推荐分析: 使用 亲和性分析方法 基于 Apriori算法 推荐电影 @author: yingzhang """ #读取数据集: http://grouplens.org/datasets/movielen

机器学习大数据数据挖掘推荐系统相关资源

原文:http://www.kuqin.com/shuoit/20151130/349205.html 书籍 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html 机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.html 视频 浙大数据挖掘系列

数据挖掘学习清单(转载)

基础篇 矩阵背后的现实意义 概率分布 无约束最优化方法 拉格朗日乘子法和KKT条件 推荐 相关性检验 协同过滤推荐算法 分类 朴素贝叶斯 LR SVM 聚类 KMeans DBScan CHAMELEON GMM 决策树 ID3 C4.5 Adaboost GBDT 关联规则挖掘 Apriori FP-Tree 序列标记 HMM1 HMM2 MEMM CRF 主题模型 PCA LSA pLSA LDA 神经网络 BP SOFM CNN

车道检测数据集

ROMA (ROad MArkings) Evaluation of Road Marking Feature Extraction view on IEEE.org [下文为摘要翻译] 本文提出了一种以评估车道线提取算法(从图像中提取出车道标记特征)的系统方法.尽管已经有很多车道线提取算法被提出,但有关该主题(评价方法)的讨论很少在文献中出现.大多数算法可以分解成三个步骤:提取道路标记的特征,估计几何标记模型,沿图像序列跟踪的几何模型的参数.本文的工作重点是第一步,即特征提取.本文提供了一个包

数据挖掘步骤

一.现在我主要讲解数据挖掘的基本规范流程 数据挖掘通常需要数据收集,数据集成,数据规约,数据清理,数据变换,数据挖掘实施过程,模式评估和知识表示 1.数据收集:根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库.选择一种合适的数据存储和管理的数据仓库类型 2.数据集成:把不同来源,格式的数据进行分类 3.数据规约:当数据量和数据的值比较大的时候,我们可以用规约技术来得到数据集的规约表示,比如(数据值-数据平均值)/数据方差,这是数据就变小了很多但接近原数据的完整性,规约后数据挖掘的结