机器学习之必知开源数据集

之前看到的不错的文章,玩机器学习数据是关键,有了这些东西,你就不必再为没有数据而苦恼。 
转自:https://www.365soke.cn

机器学习的研究与实现,离不开大数据。知晓通用的开源数据集,一方面可以验证自己算法,而另一方面也可以与其他算法进行比较。

不少开源工具和框架都会含有默认的数据集,使学习者能很快上手。比如scikit-learn就直接支持iris、digits等数据集,通过datasets.load_iris()、datasets.load_digits()就可以直接载入数据进行分析。

除了工具默认支持的数据集外,还有很多知名的开源数据集,供机器学习相关人员使用。

UCI

UCI肯定是最知名的开源数据集(库)之一,它是加州大学欧文分校所维护的一个数据集(库),里面包含373个数据集,并且还在持续增长。数据集的类别也很丰富多样并且归类清晰,有专门针对聚类的数据集,专门针对回归研究的数据集;从数据类型纬度,有文本类型的,有时序相关类型的。 

同时其数据的获取也很简单,直接点击需要的数据集,进入下载页面直接压在压缩包,解压即可使用。数据一般按照特定格式组织成文本形式。

在UCI项目中,最常用的数据集包括iris、wine、soybean、zoo:

  • iris,鸢尾数据集,其包含3个类,每个类50个元素,每个元素有5个属性,用来代表不同的鸢尾花
  • wine,酒水数据库,其中包含3个类,共178个元素,每个元素有3个属性,常用于聚类研究
  • soybean,大豆疾病数据集,其中包含4个类,共47个元素,但每个元素有35个属性
  • zoo,动物园数据集,其中包含7个类,共101个元素,每个元素16个属性

项目地址:http://archive.ics.uci.edu/ml/index.php

GoogleTrends

GoogleTrends开源出来的数据集不一定是非常知名、用途广泛的数据集,但是由于其数据来源于互联网,具有很强的时间感,社会属性,并且也能很快检测算法的准确性,毕竟互联网数据的产生速度要远远大于传统数据。 

该数据集中数据组织形式也非常直接,csv文件,这样无论是人工查看,还是程序处理都非常方便,毕竟现在绝大多数框架都支持直接载入csv文件。

项目地址:http://googletrends.github.io/data/

Kaggle

Kaggle本身是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。而各种机器学习竞赛中用到的数据集则可以在改平台上下载,这对于验证、对比自身算法的优劣大有裨益。 

其中覆盖了分类、回归、排名、推荐系统以及图像分析等各个非常使用的领域,但是不好之处在于有些数据集是收费的

AWS公用数据集

这个数据集是AWS集成的,必须通过AWS API访问的数据集,其中包含了人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams等形形色色的数据集。

使用该数据库最大问题是它默认支持的格式是通过AWS相关的操作,包括建实例等,对于离线分析,或者不想购买云资源的用户来说,不那么方便直接。

项目地址:https://www.taohuayuan178.com

Imagenet

Imagenet是图像领域最出名的数据集之一,各种图像处理相关的算法都会在该数据集上验证其先进性,也有各种研究人员针对该数据集做研究以及优化。 

在深度学习异常火爆的当下,Imagenet也起了非常大的推动作用。深度学习领域大牛Hilton的论文《ImageNet Classification with Deep Convolutional Neural Networks》,其使用的就是Imagenet数据集,后来者们也都纷纷使用该数据集进行算法的研究和优化。

该数据集有1400W图片,涵盖有丰富的类别,带标注数据也超过百万,这使得该数据集在图像处理,定位,检测等研究工作中占据很大的地盘,其机会成为了目前深度学习图像领域算法性能检验的标准数据库。

项目地址:http://www.mhylpt.com/

MINIST

深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。此数据集是以二进制存储的,不能直接以图像格式查看,不过很容易找到将其转换成图像格式的工具。最早的深度卷积网络LeNet便是针对此数据集的,当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程,其中Tensorflow关于MNIST的教程非常详细。

 
项目地址:http://yann.lecun.com/exdb/mnist/

/r/数据集

Reddit的/r/数据集是一个大伙分享、请求的数据集平台,在此平台上能分享、下载甚至讨论大量的数据集,从普通数据集到用于深度分析的数据集,不一而足。

项目地址:https://www.reddit.com/r/datasets/

其他数据集

麻省理工大学人脸识别,http://www.hbs90.cn/  /fddb/

歌曲数据库,http://labrosa.ee.columbia.edu/millionsong/

图像处理COCO,http://mscoco.org/

视频数据集youtube,https://research.google.com/youtube8m/

此外,还有大量的针对某个领域的数据集,比如图像分隔、地质数据、政府数据等等,不一而足。

原文地址:https://www.cnblogs.com/qwangxiao/p/8723581.html

时间: 2024-10-08 10:56:42

机器学习之必知开源数据集的相关文章

图解 & 深入浅出Java初始化与清理:构造器必知必会

Writer      :BYSocket(泥沙砖瓦浆木匠) 微         博:BYSocket 豆         瓣:BYSocket FaceBook:BYSocket Twitter    :BYSocket 在面向对象编程中,编程人员应该在意"资源".比如 ? 1 <font color="#000000">String hello = "hello": </font> 在代码中,我们很在意在内存中Stri

图解 & 深入浅出 JavaWeb:Servlet必会必知

Writer      :BYSocket(泥沙砖瓦浆木匠) 微         博:BYSocket 豆         瓣:BYSocket FaceBook:BYSocket Twitter    :BYSocket "眨眼间,离上一篇写技术博文时隔1个月.怕自己真的生疏了,都是备案太慢惹得.哈哈,继续high~ " 从[JavaEE 要懂的小事] Http相关,一直想写点Web开发相关的.最近项目接口开发紧,还有准备新的九月份战斗.JDK IO源码就隔一段落,温故知新看看Ser

迈向高阶:优秀Android程序员必知必会的网络基础

1.前言 网络通信一直是Android项目里比较重要的一个模块,Android开源项目上出现过很多优秀的网络框架,从一开始只是一些对HttpClient和HttpUrlConnection简易封装使用的工具类,到后来Google开源的比较完善丰富的Volley,再到如今比较流行的Okhttp.Retrofit. 要想理解他们之间存在的异同(或者具体点说,要想更深入地掌握Android开发中的网络通信技术),必须对网络基础知识.Android网络框架的基本原理等做到心中有数.信手拈来,关键时刻才能

一个老师程序员说:这是学Java 必知必会的 20 种常用类库和 API

一个有经验的Java开发人员特征之一就是善于使用已有的轮子来造车.<Effective Java>的作者Joshua Bloch曾经说过:"建议使用现有的API来开发,而不是重复造轮子".在本文中,我将分享一些Java开发人员应该熟悉的最有用的和必要的库和API.顺便说一句,这里不包括框架,如Spring和Hibernate因为他们非常有名,都有特定的功能.最后,如果大家如果在自学遇到困难,想找一个java的学习环境,可以加入我们的java学习圈,点击我加入吧,会节约很多时

试读—增长黑客,创业公司必知的“黑科技”

概述 刚一看到书名,最引起注意的是黑客两个字,那个带着神秘色彩,让无数程序员羡慕嫉妒恨的角色.但仔细一看,增长黑客,创业公司必知的"黑科技",是讲公司如何以切实的依据.低廉的成本.可控的风险来达成用户增长.活跃度上升.收入额增加等知识及案例的,这对于初创公司又没有充足的资金去燃烧以改变用户习惯的情况无疑是雪中送炭.指北之针. 什么是增长黑客? 本书适合哪些读者? 增长 靠原始积累实现增长的时代已经过去,也不适合互联网.移动互联网.互联网+的模式.我们经常能看到类似的新闻"某公

MySQL必知必会 学习笔记(一)

第一章  了解SQL 模式:   关于数据库和表的布局以及特性的信息.[描述表可以存储什么样的数据,数据如何分解,各部分信息如何命名等等,可以用来描述数据库中特定的表以及整个数据库(和其中表的关系)]. 第二章 MySQL简介 MySQL是一种DBMS,即它是一种数据库软件.基于客户机----服务器的数据库. MySQL工具: 1.mysql 命令行实用程序 2.MySQL Administrator 3.MySQL query Browser 第四章 检索数据 LIMIT 5 表示MySQL返

图解 &amp; 深入浅出JavaWeb:事务必会必知

图解 & 深入浅出JavaWeb:事务必会必知 转载自http://www.bysocket.com/ 事务,大家所熟悉的事务(Transaction),基本上会就往Spring事务靠.其实Spring事务管理基于底层数据库本身的事务处理机制.数据库事务的基础,是掌握Spring事务管理的基础.这篇总结下数据库事务. 一.数据库事务 它的思想:we are 伐木累.就是多个SQL语句(一个团队),要么所有执行success,不然就fail. 它最终的目标:数据不会被破坏.即事务操作成功,数据的结

mysql 必知必会总结

以前 mysql 用的不是很多, 2 天看了一遍 mysql 必知必会又复习了一下基础.  200 页的书,很快就能看完, 大部分知识比较基础, 但还是了解了一些以前不知道的知识点.自己做一个备份,随时查看. 命令:sql 不区分大小写,语句大写,列.表名小写是一种习惯连接命令:mysql -u user_name –h example.mysql.alibabalabs.com –P3306 –pxxxxquithelp show; // 查看所有 show 命令show databases;

程序员必知的10大基础实用算法

    算法一:快速排序算法 快速排序是由东尼·霍尔所发展的一种排序算法.在平均状况下,排序 n 个项目要Ο(n log n)次比较.在最坏状况下则需要Ο(n2) 次比较,但这种状况并不常见.事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的 架构上很有效率地被实现出来. 快速排序使用分治法(Divide and conquer)策略来把一个串行(list)分为两个子串行(sub-lists). 算法步骤: 1 从数列中挑出一个元