Machine learning(1)

记录一些小破站机器学习课程笔记

高斯分布-最小二乘法-正则化

高斯分布

线性高斯模型Linear Gaussian Model

LGM的一个例子：卡尔曼滤波器Kalman filter$z_{t-1} -> z_t: z_t = Az_{t-1} + B + \epsilon$

极大似然估计（MLE）的推导

$Data : X = (x_1, x_2, ..., x_n)^T = \begin{pmatrix} x_1\\x_2\\...\\x_N \end{pmatrix}_{N*P}$ 每个$x_n$是P维 $x_i \in R^P$ $x_i \sim N(\mu, \sigma^2)$ 满足高斯分布且为独立同分布（iid）

将参数$\mu$, $\sigma^2$设为$\theta$，即$\theta = (\mu, \sigma^2)$

MLE推导

$MLE = \theta_{MLE} = argmax_{\theta}(P(X | \theta))$ $P(X | \theta)$：概率乘积$\prod$。

对$P(X | \theta)$取log（ln） $logP(X|\theta) = log\prod_{i=1}^{N}P(x_i|\theta) = \sum_{i=1}^Nlog[P(x_i|\theta)]=\sum_{i=1}^Nlog[\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i-\mu)^2}{2\sigma^2})]$

通过对此式分别求导，求得$argmax_\mu$和$argmax_{\sigma^2}$

$\mu_{MLE} = argmax_{\mu} = \frac{1}{N}\sum_{i=1}^Nx_i（无偏估计）$ $\sigma^2_{MLE} = argmax_{\sigma^2} = \frac{1}{N} = \sum_{i=1}^{N}(x_i - \mu)^2（有偏估计）$

最小二乘法

计算参数w

alt text

matplotlib绘制的最小二乘法示意图 \[Data = {(x_1, y_1), ..., (x_n, y_n)}, x_i\in R^P, y_i\in R^1\]

$x_i$和$y_i$分别属于P维空间和1维空间

\[X = \begin{pmatrix}x_{11}&x_{12}&...&x_{1p} \\ x_{21}&x_{22}&...&x_{2p} \\ x_{N1}&x_{N2}&...&x_{Np} \end{pmatrix}_{N*P}\] \[Y = \begin{pmatrix}y_1 \\ y_2 \\ ... \\y_N \end{pmatrix}_{N*1}\]

损失函数

\[L(w) = \sum^N_{i=1}||w^Tx_i - y_i||^2 = (w^TX^T - Y^T)(XW - Y) = w^TX^TXw - 2w^TX^TY + Y^TY\] \[\hat{w} = argmin_wL(w)\]

-> 求导 ->

\[\frac{\delta L(w)}{\delta w} = 0 -> 2X^TXw - 2X^TY = 0 -> \hat{w} = (X^TX)^{-1}X^TY（(X^TX)^{-1}X^T：伪逆X^+）\]

求得$\hat{w}$

几何理解

对于$f(x) = w^Tx = x^T\beta$（左乘：行变换。右乘：列变换。转置之后原先的行变换即变成列变换）

对于每一个$X_i \in R^p$，只要使得拟合的$y_i$离样本$y_i$的距离最小 $\rightarrow$ 向量相乘 $\bot$ 原先的样本$X_i$

\[\overrightarrow{x_i} \bot (\overrightarrow{y_i} - \overrightarrow{x_i}\beta)\] \[\rightarrow \overrightarrow{X}(\overrightarrow{Y} - \overrightarrow{X}\overrightarrow{\beta}) = 0\] \[代入\overrightarrow{a} · \overrightarrow{b} = a^Tb\] \[X^T(Y-X\beta) = 0 \rightarrow \beta = (X^TX)^{-1}X^TY\]

得到拟合后函数的参数