什么情况下使用large training data会非常有效

收集大量的数据可能比算法的优劣更重要

Banko和Brill在2001年做了一个研究，是关于在句子中对易混单词进行识别，画出了上图的右边的那个图，这个图显示了对于不同的算法，它们的表现相似，但是随着training set size的增加，不同的算法的性能都增加。这个说明了一个较劣势的算法，如果它有大量的数据的话，在这个例子中，它的表现会对优秀的算法只有少量的数据要好。了解到这个情况，我们就知道了，在特定的情况下（数据量的提升对改进算法有效），我们应该把精力放在收集大量的数据上，而不是用来选择某个算法。

在业界，有一句话，是"不是有最好算法的人赢了，而是有最多数据的人赢了"，说明了收集大量数据的重要性。

之前我们了解到在有些情况下，收集大量的数据是没有用的（如high bias下，随着数据量的增加，算法性能并不会变好）

那么在什么情况下收集大量的数据是有用的呢？

大量数据有用的前提条件： feature能够给我们的预测提供足够的信息

如何来判断x是否给我们提供了足够的信息(useful test): 提供x的这些信息，去看看如果是这方面的专家（人），能否可以预测出y值。

例如：对于填词的那个例子，提供了X（需要填写的词周转的词），一个英语方面的专家能够正确预测出这里应该填哪个单词吗？-----是可以的，前提条件成立，这个说明大量的数据对我们的算法是有好处的。

对于房子价格预测的例子，提供了X(只是房子的面积)，一个销售房产的专家也不能够正确预测房子的价格，因为不知道其它房子的信息（如所处地区，新旧，房间数等等）-----前提条件不成立，说明我们收集大量的数据是没有用的，因为这个算法处于high bias（features太少）的情况。

大量数据有用的一些讨论

我们使用了一个有很多参数的算法（即features提供了足够的信息），那么这个算法能画出很复杂的曲线，即能很好的拟合我的training data,即J(training)很小；

这时如果我们使用大量的traning set的话，算法就不会过拟合了，这样我们的J(test)与J(training)相近的大小（因过拟合的话，J(test)大J(training)小，它们之间有一段gap），又因为J(training)很小，所以J(test)也很小。=》说明了我们使用大量的数据对于有很多参数的算法来说是有效的。

另一方面说明：算法有很多参数=>low bias;using large training set(unlikely to overfit)=>low variance。我们的目的就是得到low bias与low variance的算法。

总结

拿到一个X（features）,想想如果是一个在这方面的专家，能够根据X来正确预测出Y值吗？=>判断信息是否足够
如果我的算法的parameters足够多(信息足够多)，这时我们增大训练集的数量是非常有效的，能够提高我的算法的性能。

时间： 2024-11-05 20:14:02

什么情况下使用large training data会非常有效

什么情况下使用large training data会非常有效的相关文章

Linux系统原有分区/data 有数据，再不格式化/data分区的情况下重装系统

(hdu step 3.2.4)FatMouse's Speed(在第一关键字升序的情况下,根据第二关键字来求最长下降子序列)

论文笔记《The Impact of Imbalanced Training Data for CNN》

Oracle主库归档丢失，备库日志有gap，在不重建备库的情况下，恢复备库

C++对象模型——"无继承"情况下的对象构造(第五章)

破解windows下MySQL服务启动不了的情况下不能对其进行完全卸载的解决方案

How much training data do you need?

如何在跨平台的情况下获取可执行文件的详细信息和属性

SQLite.dll混合模式程序集是针对“v2.0.50727”版的运行时生成的，在没有配置其他信息的情况下，无法在 4.0 运行时中加载该程序集。