EBET易博官方网站第4章-训练模型

  新闻资讯     |      2023-04-22 11:54

  为学习率,学习率需要一个合适的值,过小训练缓慢,过大无法收敛至代价函数最小,学习率过大会使得。批量梯度下降每次迭代都会使用到最整个完整的数据集

  :随机梯度下降相较于批量梯度下降是另一个极端,每一次迭代使用一个样本来更新权重系数,这使得权重系数的更新变得十分的跳跃,这有利于规避模型陷入局部最优之中,但这也使其EBET易博真人很难收敛。好的做法是训练初期采用较大的学习率跳过局部最优,后期采用较小的学习率让算法尽可能靠经最优值。注意:随机梯度下降对每次迭代传入样本的顺序十分敏感,所以需要参与训练的样本必须是独立且分布均匀的(IID),为了确保这一点一种简单的方法是每次训练时都对数据进行混洗。

  :小批量梯度下降介于批量GD与SGD之间,它每次迭代使用的是数据集一部分,综合了两者的优缺点。

  该模块还会尝试寻早不同特征间的联系,比如加入有两个特征a、b,再degree = 3的情况下,该模块除了会添加a^3, b^3, a^2, b^2外,还会添加ab^2, a^2b, ab

  在第二章中学到过如果模型在训练集上表现优异但根据交叉验证的指标泛化较差则说明模型过拟合,如果两者表现均不理想,说明欠拟合。这里介绍另外一种判断过拟合的方法——观察学习曲线。学习曲线是以训练集大小为横坐标,训练集误差与验证集误差为纵坐标的两条曲线。

  欠拟合:当训练集中只有一两个实例时模型可以很好的拟合他们,训练集误差很小,但此时验证集误差较大,随着训练集的增大,训练集误差会增加到一个较大值直到平稳,此时验证集误差也会变得平稳,两条曲线最终会变得很接近。

  过拟合:随着训练集的增大,训练集误差也会增大,验证集误差也会减小,但训练集误差增大的速度相较欠拟合缓和不少。最后两条曲线会逐渐趋于稳定且相距甚远。改善过拟合的方法之一是向其提供更多的训练数据。

  为减小线性回归或多项式回归过拟合的问题,一个好的方法就是对模型进行正则化,即限制权重系数取值使其尽可能的小。有三种方法来限制权重,分别是岭回归、Lasso、弹性网络。此处我们使用MSE作为普通线性回归的成本函数:J(\theta)=MSE(\theta)

  上述α是控制则化的程度的超参数,α为0时岭回归就是线性回归,随着α的增大会使得模型更加稳定(不极端)。注意,偏置项没有进行正则化。岭回归在sklearn中有两种实现方式:

  Lasso倾向与完全清除不重要的特征,也就是将权重设置为0,换句话说Lasso会自动执行特征选择并输出一个系数模型(只有很少特征有非0权重值)。这是因为L1的导数只有-1,1两个取值,使得所有权重系数在迭代的过程中都会均等的减小,一开始就比较小的权重系数会更快达到0。

  也正因为L1的导数仅取值1、-1,Lasso在梯度下降中会在最优解附件反弹,因此需要逐渐降低训练期间的学习率。Lasso回归同样有两种实现方式

  r=0时,弹性网络等于岭回归、r=1时弹性网络等于Lasso回归,用法如下

  对于梯度下降这一类迭代学习的算法,还可以通过在验证集误差达到最小时停止训练的方法来实现正则化。当然我们很难知道什么时候达到了最小值,一种解决方法是模型在验证错误达到局部最小值后一段时间停止,然后回滚模型参数到验证集最小的位置。实现方法如下:

  逻辑回归用于二分类任务,是将线性回归的输出输入到一个s型函数(sigmoid函数)比如逻辑函数中计算出概率值。逻辑函数如下:

  上述式子中,i表示n个样本中的第i个样本,j表示样本属于k个类别中的第j类。y_{i,j}是第i个样本属于第j个类别的概率线。P_{i,j}表示第i个样本属于第j个类别的概率预测值。softmax回归是逻辑回归的推广,在k等于2时,等价于逻辑回归。