蜡炬教育：如何处理机器学习中大型数据的加载问题？

原标题:蜡炬教育：如何处理机器学习中大型数据的加载问题？

蜡炬教育老师表示，在处理机器学习算法时，经常会因为数据库太大而导致无法放入内存中，而遇到这样几个问题：当运行数据集算法而导致崩溃时如何解决？当需要处理大容量数据文件时该如何加载？如何方便快捷的解决内存不足的问题？

针对以上问题，蜡炬教育老师给出7个建议：

1.分配更多内存
某些ML工具或数据库默认内存配置不合理，可以看看是否可以手动分配。

2.使用较小样本
确认是否需要处理所有数据？在对最终数据拟合前，使用随机抽取数据样本这个示例即可。

3.使用内存更大的设备
可以租用大内存的服务器，这样可以在物理手段上获取更大的计算能力。

4.更改数据格式
可以通过更改数据格式来加快数据加载并降低内存使用率，比如二进制格式。

5.流数据或使用渐进加载
可以将数据逐步加载到内存中进行使用。

6.使用关联数据库
从内部来看，存储在磁盘上的数据可以逐步加载，并可以使用标准语言（SQL）来进行查询。

7.使用大型数据平台
比如用Mahout机器学习库的Hadoop以及用MLLib库的Spark，它们是为处理非常大的数据集专门设计的平台。

蜡炬教育老师说到，如果遇到数据库太大无法放入内训的相关问题，可以从如上7个方法中寻找解决办法。

原文地址：https://blog.51cto.com/14355900/2401928

时间： 2024-08-25 20:50:27

蜡炬教育：如何处理机器学习中大型数据的加载问题？的相关文章

ASP.NET-【Excel】-将Excel中的数据批量加载到SQLserver数据库

用到了一个SqlBulkCopy的类核心代码分析代码我还没有测试过 string excelConnectionString = string.Format("Provider=Microsoft.ACE.OLEDB.12.0;Data Source={0};Extended Properties=Excel 8.0", path); // Create Connection to Excel Workbook using (OleDbConnection connection =

安卓中实现界面数据懒加载

大家在使用手机新闻客户端的时候就会有一个发现,大多数的新闻客户端都会把新闻分类,诸如头条.娱乐.体育.科技等等,如何实现这种界面的呢?这个实现起来其实很简单,就是在一个Fragment中实现多个ViewPage的切换,再在ViewPage的上面放一个TabLayout,关联起来就可以实现联动效果.如果大家感觉不太明了的话,以后我可以专门写一篇关于Fragment中放入多个ViewPage的博客,今天,我主要介绍的是怎样实现界面即Fragment的懒加载.那么,大家就会奇怪了既然是加载界面直接加载

Unity3d通用工具类之数据配置加载类

今天,我们来讲讲游戏中的数据配置加载. 什么是游戏数据加载呢?一般来说游戏中会有场景地图. 按照国际惯例,先贴一张游戏场景的地图: 在这张地图上,我们可以看到有很多正六边形,正六边形上有树木.岩石等. 哎!那么问题也就来了.大家会思考这张地图怎么啦.关游戏数据配置有什么关系?我们做好场景直接loding进来不就行了? 这也就是问题所在,如果你是直接loding进场景有很多问题: 1.场景是死的.只能是这个做好的场景.如果你想删除一些正六边形,想改变一些树木的位置,如何完成.有人会想,那我再做一个

019 关联映射文件中集合标签中的lazy(懒加载)属性

<set>.<list>集合上,可以取值:true/false/extra,(默认值为:true) 实例一:(集合上的lazy=true(默认))class默认lazy=true(默认) session = HibernateUtils.getSession(); tx = session.beginTransaction(); //不会发出SQL语句 Classes classes = (Classes)session.load(Classes.class, 1); //发出SQ

蜡炬教育：AI程序员如何获取大量的开源数据，用于实践练习

原标题:蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习 ?很多大数据.机器学习.人工智能的初学者都需要大量的数据去进行练习,因为之前从未深度接触过相关领域,很难找到合适的练习数据,今天蜡炬教育的老师就给大家推荐几个开源的数据集网站. ?一.比较简单的数据集网站Data.gov,这个是美国政府的公开数据网站,包含了来自气候.教育.能源.金融等领域的19万多的数据集.data.WorldBank.org,这个是世界银行的开放数据网站,提供了世界发展指数.教育指数等几大类数据集.? ?二.大

[转]如何处理机器学习中的不平衡类别

如何处理机器学习中的不平衡类别原文地址:How to Handle Imbalanced Classes in Machine Learning 原文作者:elitedatascience 译文出自:掘金翻译计划本文永久链接:github.com/xitu/gold-m- 译者:RichardLeeH 校对者:lsvih, lileizhenshuai 如何处理机器学习中的不平衡类别不平衡类别使得"准确率"失去意义.这是机器学习 (特别是在分类)中一个令人惊讶的常见问题,出现于每

ArcGIS Engine中数据的加载（转）

1.加载Shapefile数据 1 IWorkspaceFactory pWorkspaceFactory; 2 IFeatureWorkspace pFeatureWorkspace; 3 IFeatureLayer pFeatureLayer; 4 5 //获取当前路径和文件名 6 OpenFileDialog dlg = new OpenFileDialog(); 7 dlg.Filter = "Shape(*.shp)|*.shp|All Files(*.*)|*.*"; 8

b/s和C/S方法用C#递归方法把数据表加载到treeview控件中

先看一下数据库的结构: 表结构如下所示: Num Name fatherNum BZ 01 总节点 0 ...... 0101 第一个一级节点 01

JS实现-页面数据无限加载

在手机端浏览网页时,经常使用一个功能,当我们浏览京东或者淘宝时,页面滑动到底部,我们看到数据自动加载到列表.之前并不知道这些功能是怎么实现的,于是自己在PC浏览器上模拟实现这样的功能.先看看浏览效果: 当滚动条滚动到页面底部时,提示“正在加载…”. 当页面已经加载了所有数据后,滚动到页面底部会提示“数据已加载到底了”: 实现数据无限加载的过程大致如下: 1.滚动条滚动到页面底部. 2.触发ajax加载,把请求返回的数据加载到列表后面. 如何判断滚动条是否滚动到页面底部?我们可以设置一个规则:当滚