大数据存储库

国内:数据堂

你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。
  Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
  Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
  Common crawl :建立并维护一个开放的网络,向所有人开放。
  EDRM File Formats Data Set:由381个文件夹200种文件格式组成。
  Apache Mahout  TLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。
  EDRM Enron Email Data Set v2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。
  ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。
  DMOZ –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。
  theinfo.org –这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
  Project Gutenberg 提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
  Million song data set:与tracks 和艺术家有关的数据
  AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
  BigML big list of public data sources.
  Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。
  Bitly 1.usa.gov data:匿名点击政府链接
  Canada Open Data:有许多政府和地理空间的数据集的试点项目
  Canada Open Data:许多政府和地理空间数据集的试点项目。
  Causality Workbench:数据存储库
  Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。
  Data Source Handbook:公开数据指南
  Datacatalogs.org:来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据
  Data.gov.uk:英国的公共可用数据(London datastore也是)
  Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。
  DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。
  Datamob:可以很好利用的公开数据
  DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心
  DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。
  EconData:大量经济学的时间序列,由许多美国政府机构编制。
  Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员
  Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。
  Europeana Data:
  FEDSTATS:一个美国统计资料的综合资源以及更多
  FIMI repository for frequent itemset mining:工具和数据集
  Financial Data Finder at OSU:大型财务数据集目录
  GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”
  GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。
  GeoDa Center:地理和空间数据
  Google ngrams datasets:来自数Google扫描的百万书籍文本
  Grain Market Research:财务数据,包括股票、期货等
  Hilary Mason research-quality Big Data sets收集许多文本和图片数据集
  HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。
  ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文
  Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
  Investor Links:包含财物数据
  KDD Cup center:数据、工作表和结果
  Kevin Chai list of datasets:文本、SNA和其他领域
  KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
  Linking Open Data 工程,免费向所有人提供数据
  MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究
  ML Data:欧盟Pascal2网络数据储存库
  NASDAQ Data Store:提供市场数据
  National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
  National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
  Open Data Census:评估世界各地的开放数据的状态。
  OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐
  Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球
  Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库
  Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
  qunb:一个用来发现和可视化的数据资料的平台
  Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据
  SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据
  Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据
  SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。
  StatLib,卡内基梅隆大学数据档案
  STATOO Datasets part 1和 STATOO Datasets part 2
  Time Series Data Library
  Visual Analytics Benchmark Repository.
  UCI KDD Database Repository :适用于机器学习和知识发现研究的大数据集
  UCI Machine Learning Repository.
  UCR Time Series Data Archive:提供数据集、论文、链接和代码
  United States Census Bureau.
  Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据
  Wolfram Alpha disease and patient level dat.
  Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛
  Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究

时间: 2024-10-11 17:20:58

大数据存储库的相关文章

大数据:70多个网站让你免费获取大数据存储库

你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本.但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果.以下是70多家可以获得免费大数据存储库的网站. Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本.可以得到多种语言的数据.内容连同图片可以下载. Common crawl 建立并维护一个所有人都可以访问的开放的网络.这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它. Common cr

Spring XD简介:大数据应用的运行时环境

简介 Spring XD(eXtreme Data,极限数据)是Pivotal的大数据产品.它结合了Spring Boot和Grails,组成Spring IO平台的执行部分.尽管Spring XD利用了大量现存的Spring项目,但它是一种运行时环境,而不是一个类库或者框架,它包含带有服务器的bin目录,你可以通过命令行启动并与之交互.运行时可以运行在开发机上.客户端自己的服务器上.AWS EC2上或者Cloud Foundry上. Spring XD中的关键组件是管理和容器服务器(Admin

大数据架构和模式(四)——了解用于大数据解决方案的原子模式和复合模式

摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,所以每个模式都有许多变化.复合模式使得业务和技术用户可以应用一个结构化方法为大数据问题建立范围,并定义高级的解决方案. 简介 本系列的 第 3 部分 介绍了大数据解决方案的逻辑层.这些层定义了各种组件,并对它们进行分类,这些组件必须处理某个

大数据架构和模式(四)了解用于大数据解决方案的原子模式和复合模式

本文收藏于:http://kb.cnblogs.com/page/510982/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:21   推荐: 0   原文链接   [收藏] 摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,

大数据架构和模式(一)——大数据分类和架构简介

概述 大数据可通过许多方式来存储.获取.处理和分析.每个大数据来源都有不同的特征,包括数据的频率.量.速度.类型和真实性.处理并存储大数据时,会涉及到更多维度,比如治理.安全性和策略.选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素. 这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务.因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案. 从分类大数据到选择大数据解

大数据架构和模式(二)——如何知道一个大数据解决方案是否适合您的组织

简介 在确定投资大数据解决方案之前,评估可用于分析的数据:通过分析这些数据而获得的洞察:以及可用于定义.设计.创建和部署大数据平台的资源.询问正确的问题是一个不错的起点.使用本文中的问题将指导您完成调查.答案将揭示该数据和您尝试解决的问题的更多特征. 尽管组织一般情况对需要分析的数据类型有一些模糊的理解,但具体的细节很可能并不清晰.毕竟,数据可能具有之前未发现的模式的关键,一旦识别了一种模式,对额外分析的需求就会变得很明显.要帮助揭示这些未知的未知信息,首先需要实现一些基本用例,在此过程中,可以

大数据架构和模式(一)大数据分类和架构简介

本文收藏于:http://kb.cnblogs.com/page/510978/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:19  阅读: 3294 次  推荐: 8   原文链接   [收藏] 摘要:大数据问题的分析和解决通常很复杂.大数据的量.速度和种类使得提取信息和获得业务洞察变得很困难.以下操作是一个良好的开端:依据必须处理的数据的格式.要应用的分析类型.使用的处理技术,以及目标系统需要获取.加载.处理.分析和存储数据的数

大数据架构和模式(二)如何知道一个大数据解决方案是否适合您的组织

本文收藏于http://kb.cnblogs.com/page/510979/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:20  阅读: 1542 次  推荐: 0   原文链接   [收藏] 摘要:本文介绍一种评估大数据解决方案的可行性的基于维度的方法.通过回答探索每个维度的问题,您可以通过自己对环境的了解来确定某个大数据解决方案对您是否适合.仔细考虑每个维度,就会发现有关是否到了改进您的大数据服务的时候的线索. 简介 在确定投

大数据科学新发展展望:不得不知的四大趋势

从2012年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天.从2016年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性IPO在国内外资本市场也不断出现.转眼间,大数据几年前经历的泡沫正在无可争议地转移到人工智能身上.可以说,在过去的一年,AI所经历的共同意识"大爆炸"与当年的大数据相比,有过之而无不及.最近风口又转移到区块链上了,某种程度上也成为业内人士焦虑的一种诱因了.