机器学习系列(十)- $L1$ 和 $L2$ 正则化(一)

基础概念

正则化概念

$L1$ 和 $L2$ 正则化

正则化公式推导

  1. 定义公式:

    $\begin{array}{l} L_{a}(W,\lambda)=J(W)+\lambda(\Vert W \Vert_{1/2}-C)= & J(W)+\lambda \Vert W \Vert_{1/2}-\lambda C \newline L_{b}(W,\lambda)= & J(W)+\lambda\Vert W \Vert_{1/2} \end{array}$

  2. 当对 $W$ 求导时 $\nabla_{W}L_{a}(W,\lambda)=\nabla_{W}L_{b}(W,\lambda)=0$ ,因 $\lambda C$ 为常数,故导数相等;

    所以 $arg_{w} \begin{pmatrix} min_{W}max_{\lambda}L_{a}(W,\lambda) \newline s.t.\lambda\ge 0 \end{pmatrix}=arg_{w} \begin{pmatrix} min_{W}max_{\lambda}L_{b}(W,\lambda) \newline s.t.\lambda\ge 0 \end{pmatrix}$ ;

    虽然两公式极值不同,但导数相同,即 $W$ 取值相同;

    注:$arg$ 为当 $f(x)$ 取最大值或最小值时,$x$ 取值;

  3. 拉格朗日乘子式,增加参数 $\lambda、C$ ,其中 $C$ 被消除;

    在式中 $C$ 决定范数可行域大小,以 $2$ 范数为例,决定了可行域的半径;

    如图所示,红色向量指代 $J(W)$ 的梯度,绿色向量指代 $\lambda(\Vert W \Vert_{1/2}-C)$ 的梯度,为使导数等于 $0$ ,需要通过调整 $\lambda$ 来确定绿色向量大小;当乘子式 $\lambda$ 确定,则可行域半径确定,则 $C$ 也被唯一确定;故参数 $C$ 受参数 $\lambda$ 影响并唯一确定;

    image-20220110194025543

正则化特性

$L1$ 正则化

$L2$ 正则化

image-20220110201312834