干货 | 从菜鸟到老司机_数据科学的 17 个必用数据集推荐

原文链接

摘要： ◆ ◆ ◆ 菜鸟入门 1. Iris 数据集在模式识别文献中，Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术，Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念，从这里开始一定没错，因为该数据集只有 4 列 150 行。

◆ ◆ ◆

菜鸟入门

1. Iris 数据集

在模式识别文献中，Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术，Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念，从这里开始一定没错，因为该数据集只有 4 列 150 行。

典型问题：在可用属性基础上预测花的类型。

2. 泰坦尼克数据集

泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导，泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合，你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题，共有 12 列 891 行。

典型问题：预测泰坦尼克号上生还的幸存者人数。

3. 贷款预测数据集

在所有行业中，最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同，它也是一个分类问题，该数据集共有 13 列 615 行。

典型问题：预测贷款申请能否得到批准。

4. 大市场销售数据集

零售业也是数据分析技术的重度使用者之一，它们可以利用分析数据来优化整个商业流程。利用数据科学技术，管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性，它就是商店的交易记录，主要解决回归问题。该数据集共有 12 列 8523 行。

典型问题：预测销售情况。

5. 波士顿数据集

该数据集也是模式识别文献中的典型数据集，该数据集得名是因为波士顿的房地产行业，同时它也是一个回归问题。该数据集共有 14 列 8506 行。因此，即使你手上的笔记本电脑性能较弱也能 Hold 住该数据集。

典型问题：预测房屋售价的中间值。

◆ ◆ ◆

进阶级别

1. 人类活动识别

该数据集是由 30 个受试人智能手机内置的传感器收集的。许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题，共有 561 列 10299 行。

典型问题：预测人类活动的类别。

2. “黑五”数据集

该数据集主要是由零售店的交易记录组成的，它在数据集界资格很老，可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题，它共有 12 列 550069 行。

典型问题：预测消费者购物量。

3. 文本挖掘数据集

该数据集包含航空公司飞行数据中关于航空安全问题的报告，属于多标记分类的高维问题，雷锋网(公众号：雷锋网)了解到它共有 30438 列 21519 行。

典型问题：根据标签为文档分类。

4. 访问历史数据集

该数据即来源于美国的一个单车分享服务，想掌握它，你必须拥有专业的数据整理技巧。该数据集 2010 年第四季度开始每季度都会总结出一个新文档，每个文档则拥有 7 列。它属于典型的分类问题。

典型问题：预测用户的类型。

5. 百万歌曲数据集

是不是觉得很新奇，原来这项技术还能用在娱乐业啊。该数据集能帮你完成回归问题，它包括 515345 个观察值和 90 个变量。不过，这还只是百万首歌曲数据库中的一个小子集。

典型问题：预测发行歌曲的最佳年份。

原文链接

时间： 2024-10-06 14:29:14

干货 | 从菜鸟到老司机_数据科学的 17 个必用数据集推荐

◆ ◆ ◆

1. Iris 数据集

2. 泰坦尼克数据集

3. 贷款预测数据集

4. 大市场销售数据集

5. 波士顿数据集

◆ ◆ ◆

1. 人类活动识别

2. “黑五”数据集

3. 文本挖掘数据集

4. 访问历史数据集

5. 百万歌曲数据集

干货 | 从菜鸟到老司机_数据科学的 17 个必用数据集推荐的相关文章

这几段代码，测测你是 Python 菜鸟还是老司机

如何告别职场菜鸟，成为职场“老司机”！

老司机的奇怪noip模拟T2-huangyueying

万字长文带你成为Python老司机

酷课堂iOS交流群，聚集了一群热爱技术、有趣、有料，平均Q龄在10年以上的“老司机”，他们遍布在全国

Android老司机搬砖小技巧

FJNU 1176 汪老司机（DP or 建图+最短路）

推荐系统老司机的十条经验（转）

Juniper老司机经验谈（SRX防火墙NAT与策略篇）视频课程上线了