Week4：[任务三] 第一节优化器optimizer（一）

发布时间：2024-04-22人气：

【目录】

什么是优化器

optimizer的属性

optimizer的方法

优化器在机器学习中的作用

在损失函数中会得到一个loss值，即模型输出与真实值之间的一个差异

对于loss值我们通常会采取pytorch中的自动求导autograd模块去求取模型当中的参数的梯度grad

优化器拿到梯度grad后，进行一系列的优化策略去更新模型参数，使得loss值不断下降

?导数、方向导数与梯度

学习参数通常是指权值或者偏置bias，更新的策略在神经网络中通常都会采用梯度下降方法

方向导数

两个自变量x,y，输出值为z可以认为是山坡的高度

多元函数的导数都是偏导，对x的偏导就是，固定y，求在x方向上的变化率；而方向有无穷多个，不仅仅x、y方向上有变化率，其他方向任意方向上都有变化率

梯度是一个向量，它向量的方向是使得方向导数最大的那个方向

梯度的方向为方向导数变化率最大的方向（方向为使得方向导数取得最大值的方向），朝着斜坡最陡峭的地方去。模长即为方向导数的值，即为方向导数的变化率。

梯度就是在当前这个点增长最快的一个方向，模长就是增长的速度。梯度的负方向就是下降最快的。

defaults里面是基本的超参数：lr、momentum、dampending、weight_decay、nesterov等，用字典打包；
state没有训练时为空；
param_groups是一个list，list中每一个元素是一个字典，字典中的'params'才是我们真正的参数，'params'里面的数据又是一个list，list中的一个元素又是一组参数
params里面的内容为网络的可学习参数，比如，00表示第一个卷积层权重，01表示bias
_step_count记录更新次数，以便于调整训练策略，例如每更新100次参数，对学习率调整一下