蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习

原标题:蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习

?很多大数据、机器学习、人工智能的初学者都需要大量的数据去进行练习,因为之前从未深度接触过相关领域,很难找到合适的练习数据,今天蜡炬教育的老师就给大家推荐几个开源的数据集网站。

?
一、比较简单的数据集网站
Data.gov,这个是美国政府的公开数据网站,包含了来自气候、教育、能源、金融等领域的19万多的数据集。
data.WorldBank.org,这个是世界银行的开放数据网站,提供了世界发展指数、教育指数等几大类数据集。?

?二、大型数据集网站
?Amazon WebServices(AWS)datasets,亚马逊提供完整的安然电子邮件、Google Booksn-gram,NASA NEX,百万歌曲等数据集,你可以在亚马逊平台使用也可以在本地计算机上使用。
?Googledatasets?
谷歌为广大开发者提供了一些数据集作为其Big Query工具的一部分,包括GiHub公共资料库和Hacker News的所有故事和评论。

?三、预测建模与机器学习数据集

?UCI MachineLearning Repository
?UCI机器学习库是当下最受欢迎的数据库,其包括了各种各样的数据集。比如空气质量、GPS轨迹等大型数据集。

?Kaggle
Kaggle推出了一个数据收集平台,人们可以自发贡献数据,现在总共有350多个数据集,其中有超过200个是特征数据集。

?四、图像分类数据集
?The MNISTDatabase
当下国内外最热门的图像识别数据库,主要为手写数字。包括6万个示例和1万个示例的测试集。
????????Chars74K
该数据集包括自然图像中的字符识别,包含74,000个图像。
?Frontal FaceImages
这个数据集主要是是由CMU & MIT收集的正面人脸图像。

?五、文本分类数据集
?Movie ReviewData?
?这个数据集网站提供了一席勒电影评论文件,其中标注了用户的总体情绪极性(正面或负面)或主观评价和对其主观性地位(主观或客观)或极性的标签

?蜡炬教育授课老师表示,通过以上数据集网站,即使是一个初学者也可以轻松找到需要的练习数据。

原文地址:https://blog.51cto.com/14355900/2402736

时间: 2024-10-13 23:04:44

蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习的相关文章

蜡炬教育:如何处理机器学习中大型数据的加载问题?

原标题:蜡炬教育:如何处理机器学习中大型数据的加载问题? 蜡炬教育老师表示,在处理机器学习算法时,经常会因为数据库太大而导致无法放入内存中,而遇到这样几个问题:当运行数据集算法而导致崩溃时如何解决?当需要处理大容量数据文件时该如何加载?如何方便快捷的解决内存不足的问题? 针对以上问题,蜡炬教育老师给出7个建议: 1.分配更多内存某些ML工具或数据库默认内存配置不合理,可以看看是否可以手动分配. 2.使用较小样本确认是否需要处理所有数据?在对最终数据拟合前,使用随机抽取数据样本这个示例即可. 3.

【转】 C/C++程序员必须熟练应用的开源项目

作为一个经验丰富的C/C++程序员, 肯定亲手写过各种功能的代码, 比如封装过数据库访问的类, 封装过网络通信的类,封装过日志操作的类, 封装过文件访问的类, 封装过UI界面库等, 也在实际的项目中应用过, 但是回过头仔细想想,其实以前自己写过的这些代码,只能是在特定的项目或者特定的环境中使用, 对于自己来说, 在不同的项目中应用, 只需要复制代码, 改改也就可以了, 因为自己写的代码自己很熟悉.问题是, 你封装的这些库, 在给别人使用的时候, 别人用起来是否很方便, 跨平台方面是不是也很通用,

C/C++程序员必须熟练应用的开源项目

作为一个经验丰富的C/C++程序员, 肯定亲手写过各种功能的代码, 比如封装过数据库访问的类, 封装过网络通信的类,封装过日志操作的类, 封装过文件访问的类, 封装过UI界面库等, 也在实际的项目中应用过, 但是回过头仔细想想,其实以前自己写过的这些代码,只能是在特定的项目或者特定的环境中使用, 对于自己来说, 在不同的项目中应用, 只需要复制代码, 改改也就可以了, 因为自己写的代码自己很熟悉.问题是, 你封装的这些库, 在给别人使用的时候, 别人用起来是否很方便, 跨平台方面是不是也很通用,

转:C/C++程序员必须熟练应用的开源项目

作为一个经验丰富的C/C++程序员, 肯定亲手写过各种功能的代码, 比如封装过数据库访问的类, 封装过网络通信的类,封装过日志操作的类, 封装过文件访问的类, 封装过UI界面库等, 也在实际的项目中应用过, 但是回过头仔细想想,其实以前自己写过的这些代码,只能是在特定的项目或者特定的环境中使用, 对于自己来说, 在不同的项目中应用, 只需要复制代码, 改改也就可以了, 因为自己写的代码自己很熟悉.问题是, 你封装的这些库, 在给别人使用的时候, 别人用起来是否很方便, 跨平台方面是不是也很通用,

JAVA程序员为何都在转大数据呢?原来如此

首先JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入IT行业,首选的第一门语言就是JAVA.但是,在未来10年肯定是大数据的天下,人工智能的爆发,将会有大量企业会进入大数据领域,而从JAVA程序员转JAVA大数据就会有天然的优势,因为目前大数据的架构基本都是用JAVA语言完成,未来10年,JAVA大数据的需求量会越来越大. 现在学习JAVA的小伙伴,如果想以后不被淘汰,将来势必会进军大数据行列,根据目前的行业动态,JAVA程序员由于发展

Java 程序员必备的10款开源工具

Java世界中存在许多工具,从Eclipse,NetBeans和IntelliJ IDEA等著名的IDE开始到Java开发人员应该知道的JVM分析和监视工具,如JConsole,VisualVM,Eclipse Memory Analyzer等. 如果你是一位经验丰富的Java开发人员,你可能对这些工具很熟悉,但如果不是,现在就是是开始学习这些工具的好时机. 在本文中,我将重点介绍适用于各种Java开发人员的通用工具,例如核心Java 开发人员和Web开发人员. JIRA Atlassian的J

黑马程序员——java——获取一个应用程序运行的次数,如果超过5次,给出使用次数已到请注册的提示,并不要再运行程序

获取一个应用程序运行的次数,如果超过5次,给出使用次数已到请注册的提示,并不要再运行程序 import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.util.Properties; public class Test5 { public static void main(String[] args) th

程序员如何获取新编程技能

目录[-] --> 百万红包.火热开启!!!有你更精彩! 正文 --> “你是怎么学会所有这些框架和语言的?”,最近在黑客马拉松上一个朋友问我. “其实,很简单,只要用你想学的东西去创建一个合适又值得的项目就行了,”我回答说. “真的吗?直接上手搞项目吗?“,他好奇地问. “是啊,还有要向合适的人征求意见.聪明的人通常都很乐于教导和帮助别人.“我告诉我的朋友,同时心中想,我为什么不关于这方面的内容写一篇博客文章呢.——于是有了本文. 对想要在科技领域工作的人非常重要的一件事情就是,你得学会如何

什么才是真正的高级程序员

原标题:蜡炬老师解释什么才是真正的高级程序员 每个人都想成功,都希望自己成为一个厉害的人,在程序开发这个职业里自然也会有初级程序员和高级程序员之分,那么今天蜡炬教育就跟大家探讨一下,什么才是一个真正的高级程序员. 蜡炬教育发现,一个真正的高级程序员,在多年的开发经验中一定会总结和形成一个完整的知识体系,在这个体系之上,可以不断的添加一个零散的技术点,从而使技术越来越丰富,对各种主流和冷门技术具有综合思考和运用的能力. 蜡炬教育观察到,高级程序员都拥有真正的经验,这不是以工作年限计算,而是他们真实