训练模型的最常用算法
what is best model for the data?
linear model, 随机猜测一个斜率(权重),找让误差最小的最优权重。
通常损失函数有多个参数,穷举某一区间中所有点,搜索最优参数,计算量太大(1个参数搜索100个点,2个参数就是100^2)
分治:先分大块(4x4)搜索,确定一个小区域,再在小区域中分(4x4)搜索。但是如果cost function 很粗糙,。
寻找使cost funciton 最小的权重,是一个优化问题:
$$ Mean Square Error: cost(w) = \frac{1}{N} \sum_{n=1}^N (\hat{y_n}- y_n)^2 \\ w^* = \underset{w}{argmin} cost(w) $$梯度下降:
初始权重,确定滚动方向,到达最低点
$w= w- \alpha \frac{\partial cost}{\partial w}$ (a 是学习率)
梯度下降只能找到局部最优。实际上,深度神经网络的损失函数并没有很多局部最优,但是存在鞍点,它的梯度为零,到达了按点没办法继续迭代。
随机