大数据:70多个网站让你免费获取大数据存储库

你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。

  Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

  Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。

  Common crawl :建立并维护一个开放的网络,向所有人开放。

  EDRM File Formats Data Set:由381个文件夹200种文件格式组成。

  Apache Mahout  TLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。

  EDRM Enron Email Data Set v2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。

  ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。

  DMOZ –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

  theinfo.org –这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。Project Gutenberg 提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。

  Million song data set:与tracks 和艺术家有关的数据

  AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。

  BigML big list of public data sources.

  Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。

  Bitly 1.usa.gov data:匿名点击政府链接

  Canada Open Data:有许多政府和地理空间的数据集的试点项目

  Canada Open Data:许多政府和地理空间数据集的试点项目。

  Causality Workbench:数据存储库

  Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。

  Data Source Handbook:公开数据指南

  Datacatalogs.org:来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据

  Data.gov.uk:英国的公共可用数据(London datastore也是)Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

  DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。

  Datamob:可以很好利用的公开数据

  DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心

  DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。

  EconData:大量经济学的时间序列,由许多美国政府机构编制。

  Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员

  Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。

  Europeana Data:

  FEDSTATS:一个美国统计资料的综合资源以及更多

  FIMI repository for frequent itemset mining:工具和数据集

  Financial Data Finder at OSU:大型财务数据集目录

  GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。

  GeoDa Center:地理和空间数据

  Google ngrams datasets:来自数Google扫描的百万书籍文本

  Grain Market Research:财务数据,包括股票、期货等

  Hilary Mason research-quality Big Data sets收集许多文本和图片数据集

  HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

  ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文

  Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。

  Investor Links:包含财物数据

  KDD Cup center:数据、工作表和结果

  Kevin Chai list of datasets:文本、SNA和其他领域

  KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。

  Linking Open Data 工程,免费向所有人提供数据MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究

  ML Data:欧盟Pascal2网络数据储存库

  NASDAQ Data Store:提供市场数据

  National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。

  National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

  Open Data Census:评估世界各地的开放数据的状态。

  OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐

  Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球

  Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库

  Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

  qunb:一个用来发现和可视化的数据资料的平台

  Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据

  SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据

  SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

  StatLib,卡内基梅隆大学数据档案

  STATOO Datasets part 1和 STATOO Datasets part 2

  Time Series Data Library

  Visual Analytics Benchmark Repository.

  UCI KDD Database Repository :适用于机器学习和知识发现研究的大数据集

  UCI Machine Learning Repository.

  UCR Time Series Data Archive:提供数据集、论文、链接和代码

  United States Census Bureau.

  Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据

  Wolfram Alpha disease and patient level dat.

  Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛

  Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究

时间: 2024-08-08 05:17:02

大数据:70多个网站让你免费获取大数据存储库的相关文章

影响网站排名收录的4大因素

1.新站考核期 百度算法的更新对新站的收录也越来越严了,一周收录首页,两周开始收录内页已经成为常见的情况,并且内页收录速度非常慢.想要达到成百上千的收录量至少也得花费一个月以上的时间,近期我做的几个新站都是这样.一般新站考核期为三个月,3个月内收录不会变动太大,会在一定区间反复波动.当站长遇到这种情况就不必慌张,只要安心做好内容建设好外链,新站度过考核期收录量自然就会一发不可收拾. 2.页面质量度 一个网站的页面质量度对收录的影响也是举足轻重的,以复制内容为主的新站很容易被K或者被降权,如果文章

[iOS微博项目 - 2.6] - 获取微博数据

github: https://github.com/hellovoidworld/HVWWeibo   A.新浪获取微博API 1.读取微博API 2.“statuses/home_timeline”接口 B.在app中获取微博数据 1.在“首页”控制器发送请求,获取json数据 1 /** 加载微博数据 */ 2 - (void) loadWeiboData { 3 // 创建AFNetworking的http操作中管理器 4 AFHTTPRequestOperationManager *m

大数据存储库

国内:数据堂 你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本.但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果.以下是70多家可以获得免费大数据存储库的网站. Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本.可以得到多种语言的数据.内容连同图片可以下载. Common crawl 建立并维护一个所有人都可以访问的开放的网络.这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它. Co

大流量高并发量网站的之解决方案

一.对于网站访问速度影响的条件如下: 瓶颈主要有: 1.磁盘搜索 优化方法是:将数据分布在多个磁盘上 2.磁盘读/写 优化方法是:从多个磁盘并行读写. 3.CPU周期 优化方法:扩充内存 4.内存带宽 二.大流量高并发量网站的解决方案 1.确认服务器硬件是否足够支持当前的流量. 2.使用memcache缓存技术,将动态数据缓存到内存中,动态网页直接调用这些文件,而不必在访问数据库. 3.禁止外部的盗链. 4.外部网站的图片或者文件盗链往往会带来大量的负载压力,因此应该严格限制外部对自身图片或者文

【大数据】2015 Bossie评选-20个最佳开源大数据技术

2015-10-10 张晓东 东方云洞察东方云洞察 InfoWorld在分布式数据处理.流式数据分析.机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快. 与Spark产生最甜蜜的火花点仍然是在机器学习领域.去年以来DataFrames API取代SchemaRDD API,类似于R和Pan

提高网站打开速度的7大秘籍(转)

很多站长使用虚拟主机来做网站,网页内容一旦很多,网站打开速度就会特别慢,如果说服务器.带宽.CDN这类硬指标我们没有经济实力去做,不妨通过网页代码优化的方式来提高速度,卢松松总结了一些可行性的方法. 1: 缩小Javascript和CSS文件 如果你的网站大约有50-60%的用户是第一次访客,那么这些人会下载Javascript和CSS,如果这些文件很大浏览器会下载很长时间. 使用压缩工具可以减少Javascript和CSS尽一半的文件大小,如果你有信心使用“命令行”我强烈推荐使用雅虎的YUI压

蚂蚁变大象:浅谈常规网站是如何从小变大的(五)(转)

原文:http://blog.sina.com.cn/s/blog_6203dcd60100xurh.html          [第九阶段 : 逻辑关联和层次划分]   在第七阶段的时候,我们提到了几个问题,其中有一个就是业务关联问题.当我们将业务拆分以后,多个业务之间没有了耦合(或者是极弱的耦合),能够独立的运转.这个看起来是多么美妙的事情.但是实际情况真是如此嘛? 这样的业务还真是存在的.比如我们有两个业务blog和image.blog可以上传和展示图片.那image.XXX.com就提供

蚂蚁变大象:浅谈常规网站是如何从小变大的(八)(转)

原文:http://blog.sina.com.cn/s/blog_6203dcd60100y1vi.html          [第十一阶段 :命名位置服务]   在前面我们不止一次提到了命名位置服务(Naming & Location Service).在不同的架构或者公司里面,这个名字往往不一样,比如,在java里面叫JNDI(Java Naming & Directory Interface),在有些地方可能会叫做资源位置系统(Resource Location System).

蚂蚁变大象:浅谈常规网站是如何从小变大的(七)(转)

原文:http://blog.sina.com.cn/s/blog_6203dcd60100xyad.html          [阶段性小结]   经过了上述的架构扩展和优化以后,我们的系统无论是从前端接入,还是后端存储都较最初的阶段有了质的变化.这样的架构足以支撑起10亿级别的流量和10亿级别的数据量.我们具体的来看一下整体的架构. 上述的模型是我个人觉得的一个比较理想的模型.Virtual Server Cluster接收数据包,转发给Web Server Cluster或者Private