1. 梯度下降法
导数为0, 所以直接沿导数方向。
learning rate 过小:,过大。
越靠近极值,梯度下降步长越小。
用上所有的training数据,叫batch gradient descent.
计算梯度时要用同一个时刻的值,不能用更新后的值。
迭代停止条件:
2. feature scaling
不scaling的话,则等高线会细长,梯度下降法怎需要很多步寻找极值。
最大最小值scaling,均值scaling,std scaling(分母可为方差,或者数据范围)
如果本身尺度变化不大的话,则不需要scaling
3. 尺度因子
极值越来越大或大小不定,原因:alpha太大;
4. 如何选择特征和regression函数
尽量减少冗余度,可以变换变量的次数。
5. 何时需要feature scaling
梯度下降时需要,normal equation不需要
6. 方法选择
normal equation:特征维数大时难以求导。
维数小:梯度法;
维度大:normal equation方法。
7. linear cost function和logistic cost function区别
时间: 2024-12-24 08:55:46