大数据练习数据接口

除了分享和讨论经典的数据挖掘和机器学习的算法,为了大家能更好的了解并实践这些算法,DMC特意为大家搜寻了一些大数据的数据源连接。

由于各个网站对于数据使用都有明确且严格的声明,我们不便在未经各网站许可的情况下私自传播数据,所以这里仅提供各数据源的网址,请大家自行登陆到各网站上提取自己所需的数据,并按各网站的数据使用声明使用数据。

数据源友情链接:?

  • 政府&机构数据
  1. 美国政府开源数据库:http://www.data.gov/
  2. 英国政府开源数据库:http://data.gov.uk/
  3. 世界银行数据库:http://www.worldbank.org/
  4. 美国气候数据库:http://www.ncdc.noaa.gov/
  5. 美国交通部数据库:http://www.rita.dot.gov/bts/data_and_statistics/index.html
  • 开源社区数据集
  1. Machine Learning Data: http://mldata.org/repository/data/
  2. UCI: http://archive.ics.uci.edu/ml/
  3. Co-Clustering: https://coclustering.hds.utc.fr/doku.php?id=en:start
  4. R Dataset:http://www.stats4stem.org/data-sets.html
  5. Google开源数据平台:http://www.reddit.com/r/bigquery/wiki/datasets
  • 商业数据平台
  1. 数据堂:http://datatang.com/
  2. Wind: http://114.80.154.45/University/ElitePlan.html
  • 竞赛&会议数据
  1. Kaggle:https://www.kaggle.com/
  2. DataCastle: http://www.pkbigdata.com/
  3. KDD: http://www.kdd.org/
  4. Statistical computing&Statistical Graphics: http://stat-computing.org/dataexpo/
  • 其他
    1. 基因数据:http://aws.amazon.com/cn/1000genomes/
    2. Cancer Program Dataset: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
    3. 电影评分数据集:http://grouplens.org/datasets/movielens/
    4. NCBI :http://www.ncbi.nlm.nih.gov/
    5. Data Source on Web:
          http://mran.revolutionanalytics.com/documents/data/#machinelearning
    6. Mahout数据集:https://mahout.apache.org/users/basics/collections.html
时间: 2024-08-02 11:00:09

大数据练习数据接口的相关文章

JDBC:数据库操作:处理大对象CLOB数据

目标: 了解大对象处理基本原理, 掌握CLOB数据的读,写操作. 可以使用CLOB类处理大文本数据. 大对象处理主要指CLOB和BLOB两种类型字段.可以大量存储文字. 要想在程序中处理这样的大数据操作,则必须使用preparedStatement完成.所有文件内容通过IO流方式从大文本字段中保存和读取. 写入大数据对象: 使用PreparedStatement接口中的方法. void setAsciiStream(int parameterIndex, InputStream x, int l

Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

显示图像数据的高级接口 UIImage

详解 UIKit:显示图像数据的高级接口 UIImage 转载自:http://www.cocoachina.com/ios/20151207/14376.html 分类:iOS开发 来源:南峰子的技术博客 本系列主要基于Apple官方文档,更多的是对参考文档重点内容的翻译与补充.该系列中的每篇文章会持续更新与补充.如有问题,欢迎通过微博告诉我,我将及时进行更正,谢谢!!! UIImage对象是iOS中用来显示图像数据的高级接口.我们可以从文件,NSData,Quartz图片对象中创建UIIma

大数据管理:数据集成的技术、方法与最佳实践 读书笔记三

7.1 什么是数据仓库 数据仓库是基于特定的数据结构(以及有关应用程序)所构建的数据的中央存储库,以便为分析和报表提供 一致的数据源.面向整个组织创建的企业数据仓库(Enterprise Data Warehouse,EDW)用于对整个组织的信息 进行分析.大多数情况下,超大型组织中会有多个企业级数据仓库,每个都拥有组织中某个很大组成部分的数 据,如某个区域,或者很大的功能域.批处理数据集成方案通常用于将数据置入或者移出数据仓库.数据仓库架 构的设计要达到以下目的:为整个组织的分析提供一致可用的

大v用户数据统计分析

1,统计数据的基本情况,包括微博总数,用户总数,最活跃和最不活跃的用户id #!/bin/sh source_dir=/home/minelab/data/DATA source_file_name=userinfo_00_au_1_out source_file=$source_dir/$source_file_name #source_file=test.src out_dir=/home/minelab/liweibo/daV out_file_name=basic_satic.txt o

【数据处理】大库订货数据匹配

select  distinct a.商品编码,a.品名,a.规格,a.最终进价 大库价格,c.curcsprc 进价,a.最终进价-c.curcsprc 差价,d.qty 西部,e.qty 东部,f.qty 中区from lhdh201408 aleft join lhspm b on a.商品编码=b.pluidleft join 商品码 c on b.barcode=c.bcdleft join (select pluno,sum(qty) qty from xbxs where rq b

清理ms sql server 大日志文件数据

1.手动分离数据库: 2.手动删除日志文件: 3.重新生成日志文件: CREATE DATABASE FMIS0 ON (FILENAME = 'E:\FMIS0_DATA\FMIS0-Date') FOR ATTACH_REBUILD_LOG ;GO 清理ms sql server 大日志文件数据

用jdbc访问大段文本数据

1 package it.cast.jdbc; 2 3 import java.io.BufferedReader; 4 import java.io.BufferedWriter; 5 import java.io.File; 6 import java.io.FileNotFoundException; 7 import java.io.FileReader; 8 import java.io.FileWriter; 9 import java.io.IOException; 10 impo

碰到诡异问题,求助大能解答,关于表单提交大文件无限数据提交问题

服务器环境 php环境 出现情况:上传30M文件的时候 本地数据一直在提交,观察服务器io 也一直有下载流量.但是就没有个结束,php输出 $_FILES,也不会执行到这行代码,比如我提交30M文件表单提交,但是流量估计超过好几百M也不会停止,反正不人为停止脚步,就是不断在数据交互.请问有大哥碰到这情况吗?是否哪些php配置没配置对 大文件上传问题已解决 以我测试上传32M文件大小为例 php 运行方式 FPM-FCGI php.ini upload_max_filesize = 64M//上传