所谓理论
梯度下降是数学优化里面的一个方法,数学优化的问题被定义成:
\[ \begin{split} & \text{minimize } & f_0(x) \\ & \text{subject to } & f_i(x) \lt b_i,\ i = 1, \cdot \cdot \cdot, m. \end{split} \]
\(\mathbf{x}\) 表示的是一个向量,对于所有满足约束条件的 \(z\),如果 \(f(\mathbf{z}) \gt f(\mathbf{x}^{*})\),那么 \(\mathbf{x}^{*}\) 就是结果向量。
Gradient Descent,或者叫做梯度下降,就给出了求解 \(\mathbf{x}^{*}\) 的一个方法。当然使用梯度下降求解 \(\mathbf{x}^{*}\) 是有前提条件的,即 \(f: \mathbf{R}^n \rightarrow R\)上是可微的,并且去掉了其他的约束条件,所以它是求解无约束最优化的一种方法。