干货 | 从菜鸟到老司机_数据科学的 17 个必用数据集推荐

原文链接

摘要: ◆ ◆ ◆ 菜鸟入门 1. Iris 数据集 在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行。

◆ ◆ ◆

菜鸟入门

1. Iris 数据集

在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行。

典型问题:在可用属性基础上预测花的类型。

2. 泰坦尼克数据集

泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导,泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合,你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题,共有 12 列 891 行。

典型问题:预测泰坦尼克号上生还的幸存者人数。

3. 贷款预测数据集

在所有行业中,最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同,它也是一个分类问题,该数据集共有 13 列 615 行。

典型问题:预测贷款申请能否得到批准。

4. 大市场销售数据集

零售业也是数据分析技术的重度使用者之一,它们可以利用分析数据来优化整个商业流程。利用数据科学技术,管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性,它就是商店的交易记录,主要解决回归问题。该数据集共有 12 列 8523 行。

典型问题:预测销售情况。

5. 波士顿数据集

该数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。该数据集共有 14 列 8506 行。因此,即使你手上的笔记本电脑性能较弱也能 Hold 住该数据集。

典型问题:预测房屋售价的中间值。

◆ ◆ ◆

进阶级别

1. 人类活动识别

该数据集是由 30 个受试人智能手机内置的传感器收集的。许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题,共有 561 列 10299 行。

典型问题:预测人类活动的类别。

2. “黑五”数据集

该数据集主要是由零售店的交易记录组成的,它在数据集界资格很老,可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题,它共有 12 列 550069 行。

典型问题:预测消费者购物量。

3. 文本挖掘数据集

该数据集包含航空公司飞行数据中关于航空安全问题的报告,属于多标记分类的高维问题,雷锋网(公众号:雷锋网)了解到它共有 30438 列 21519 行。

典型问题:根据标签为文档分类。

4. 访问历史数据集

该数据即来源于美国的一个单车分享服务,想掌握它,你必须拥有专业的数据整理技巧。该数据集 2010 年第四季度开始每季度都会总结出一个新文档,每个文档则拥有 7 列。它属于典型的分类问题。

典型问题:预测用户的类型。

5. 百万歌曲数据集

是不是觉得很新奇,原来这项技术还能用在娱乐业啊。该数据集能帮你完成回归问题,它包括 515345 个观察值和 90 个变量。不过,这还只是百万首歌曲数据库中的一个小子集。

典型问题:预测发行歌曲的最佳年份。

原文链接

时间: 2024-10-06 14:29:14

干货 | 从菜鸟到老司机_数据科学的 17 个必用数据集推荐的相关文章

这几段代码,测测你是 Python 菜鸟还是老司机

这段话被称作“Python 之禅”(The Zen of Python),它列举了一些 Python 所推崇的理念,比如: 优美胜于丑陋 明确胜于隐晦 简单胜于复杂 … 可读性很重要 不要忽略错误 面对不确定时,拒绝猜测 现在做 好过不做,但盲目动手不如不做 如果你的实现很难说清楚,那是个坏想法:反之亦然 … 当你学完基础,可以写点代码的时候,可能经常感觉自己的实现很别扭.有经验的程序员会一眼看出你的代码出自一个初学者之手.这就是我们经常说的,代码不够 pythonic. 所谓 pythonic

如何告别职场菜鸟,成为职场“老司机”!

对于这个话题,刚开始可能很多人会疑惑,菜鸟和老司机到底区别在哪里?暂且不说区别在哪里,我们可以先来看看职场"老司机"是怎么炼成的. 很多初入职场的菜鸟,都会有这样的一段经历,如何在职场获得自由,收获地位和财富:而对于职场老司机来说任何财富和地位其实都是踩踏着种种痛苦和伤痕而实现的:所以就先和大家聊聊如何能够在短期职场中成为"腹黑老司机".首先不管你是初入职场的菜鸟还是混迹职场的老油条.老司机,你都要明白三个残酷原则: 1.利益至上 职场就是一个利益交换的地方,除了利

老司机的奇怪noip模拟T2-huangyueying

2. 黄月英(huangyueying.cpp/c/pas )[问题描述]xpp 每天研究天文学研究哲学,对于人生又有一些我们完全无法理解的思考.在某天无聊学术之后, xpp 打开了 http://web.sanguosha.com, 准备用他心爱的黄月英虐人.进入了八人身份局,作为一位主公,xpp 果断选了黄月英,用黄月英挑 7 人.xpp 为什么喜欢黄月英这个武将呢?因为集智是个很牛逼的技能.集智——每当你使用一张非延时类锦囊(在它结算之前)你可以立即摸一张牌.可见集智这个技能如果用得好那么

万字长文带你成为Python老司机

万字长文带你成为Python老司机 前言: 本文主要总结项目开发中和面试中的Python高级知识点,是进阶Python高级工程师必备要点. 主要内容: No.1 一切皆对象 众所周知,Java中强调"一切皆对象",但是Python中的面向对象比Java更加彻底,因为Python中的类(class)也是对象,函数(function)也是对象,而且Python的代码和模块也都是对象. Python中函数和类可以赋值给一个变量 Python中函数和类可以存放到集合对象中 Python中函数和

酷课堂iOS交流群,聚集了一群热爱技术、有趣、有料,平均Q龄在10年以上的“老司机”,他们遍布在全国

新书即将上市: 这两天收到出版社的样书,预计这两周将陆续开始上架,感兴趣的小伙伴,到时可在天猫.当当.京东搜索"李发展"即可找到. ? ? ? ? ? ? ? ? ? ? ? ? ? ? 本书内容简介和适合人群: 本书包含Swift 4.0语言.Cocoa Touch.视图控制器.控件.表格.网络.地图.音频.视频.动画.触摸.手势.故事板.CoreData.性能测试.机器学习.增强现实.加密解密等众多功能模块.这些内容是iOS开发必知必会的内容,需要读者重点掌握. 读者对象:通过对本

Android老司机搬砖小技巧

作为一名Android世界的搬运工,每天搬砖已经够苦够累了,走在坑坑洼洼的道路一不小心就掉坑里了. SDK常用工具类 Android SDK中本身就拥有很多轮子,熟悉这些轮子,可以提高我们的搬砖效率. android.text.TextUtils 字符串操作常用方法:isEmpty() ,join(),split()等 if(!TextUtils.isEmpty(text)){ //do something } android.webkit.URLUtil 链接相关常用方法:isHttpUrl(

FJNU 1176 汪老司机(DP or 建图+最短路)

1196: 汪老司机 Time Limit: 1000 MS         Memory Limit: 257792 KB 64-bit interger IO format: %lld        Java class name: Main Prev Submit  Discuss Next 汪老司机是实验室出了名的老司机,早在大一就拿到了驾照,每年的暑假他都会带家人开车出游,今年的暑假也不例外,汪老司机今年准备带家人去平潭游玩,汪老司机的家离平潭有两条路,每条路都存在n个路段,两条路的n

推荐系统老司机的十条经验(转)

作者:刑无刀链接:https://zhuanlan.zhihu.com/p/23847246来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 一年一度的ACM Recsys会议在9月份已经胜利闭幕,留下一堆slides和tutorials等着我们去学习. 翻看今年的各种分享,其中老司机Xavier Amatriain的分享引起了我的兴趣:Lessons Learned from Building Real--Life Recommender Systems.主要分享

Juniper老司机经验谈(SRX防火墙NAT与策略篇)视频课程上线了

继前面的<Juniper老司机经验谈(SRX防火墙优化篇)>之后,Juniper老司机经验谈(SRX防火墙NAT与策略篇)第二部视频课程也录制上线了 1.两个课程完全独立又相结合, SRX防火墙优化篇是针对防火墙双机.配置优化内容. SRX防火墙NAT与策略篇则是针对防火NAT.策略内容 . 两部除了前几4单节基础理论与模拟环境搭建部分一样外,其他内容完全不重叠. 2.本课程内容: 大家在QQ群.论坛里经常提的问题,许多人对SRX使用中NAT\策略问题不是很理解,实际工作中碰见太多问题,惹出了