データが従う規則(=確率分布、関数)を有限個のデータから推定する問題
画像に猫がいるかいないか判別する規則をデータから推定したい
今日までの株価データから明日の株価を予測したい
今日までの株価データから明日の株価を予測したい
特定の物性の化学物質を色々生成したい
具体的にどのように学習を行うのかを説明する
最も基本的な定式化では、最尤推定を行う。つまり負の対数尤度を
としたとき、最尤推定量 $\hat\mu$ を求めよ。
$-\log p(x;\mu, 1) = \dfrac{(x-\mu)^2}{2} + C$($C$ は $x, \mu$ によらない定数)なので、 $$\mathcal{L}(\mu; \mathcal{D}) = \sum_{n=1}^{N}\dfrac{(x_n-\mu)^2}{2} + C$$
$$ \begin{align*} \sum_{n=1}^N \dfrac{(x_n - \mu)^2}{2} &= \dfrac{1}{2} \left(N\mu^2 - 2 \mu\sum_{n=1}^{N}x_n + \sum_{n=1}^{N}x_n^2\right)\\ &= \dfrac{N}{2} \left(\mu^2 - 2 \mu \frac{1}{N}\sum_{n=1}^N x_n + \frac{1}{N} \sum_{n=1}^{N} x_n^2\right)\\ &= \dfrac{N}{2} \left(\mu - \frac{1}{N} \sum_{n=1}^N x_n\right)^2 + C \end{align*} $$ 最後の$C$は$\mu$によらない定数
よって $$ \begin{align*} \hat\mu &= \arg\min_{\mu\in\mathbb{R}} \mathcal{L}(\mu; \mathcal{D}) \\ &= \arg\min_{\mu\in\mathbb{R}} \dfrac{N}{2} \left(\mu - \frac{1}{N} \sum_{n=1}^N x_n\right)^2\\ &= \frac{1}{N} \sum_{n=1}^N x_n \end{align*} $$
サンプル $\mathcal{D}$ が観測される確率を最大化するようにパラメタを定めるのはそれっぽいけど...
→ 漸近的(サンプルサイズを無限大にしたとき)に良い性質があるからよく使われる
サンプルが $p(z \mid \theta^\star)$ に従うとする ($\theta^\star \in \Theta$)。このときある一定の条件下で、 $$\hat\theta_N \overset{\mathrm{P}}{\rightarrow} \theta^\star$$ つまり、任意の$\epsilon>0$に対して $$\Pr[d(\hat\theta_N, \theta^\star) > \epsilon] \rightarrow 0\ \text{as}\ N\rightarrow\infty$$ が成り立つ。
ある一定の条件下で、サンプルサイズ $N$ が大きくなるに従って、 $$\mathbb{E}[(\hat\theta_N - \theta^\star)^2]$$ が理論的な下限 (Cramér–Rao bound) に収束する。
データセットを観測した元でのモデルパラメタの推定を表す
としたとき、 $\mu$ の事後分布 $p(\mu \mid \mathcal{D})$ を求めよ。
$$ p(\mu \mid \mathcal{D}) = \dfrac{p(\mathcal{D} \mid \mu)p(\mu)}{p(\mathcal{D})} $$ であるが、 $$ \begin{align} \log (p(\mathcal{D} \mid \mu)p(\mu)) &= \log p(\mathcal{D} \mid \mu) + \log p(\mu) \\ &= \log p(\mu) + \sum_{n=1}^N \log p(x_n \mid \mu)\\ &= - \dfrac{\mu^2}{2} - \sum_{n=1}^N \dfrac{(x_n - \mu)^2}{2} + C \end{align} $$ ($C$は$\mu$に依存しない項)
$$ \begin{align} &= - \dfrac{1}{2}\left((N+1)\mu^2 - 2\mu\sum_{n=1}^{N}x_n + \sum_{n=1}^N x_n^2\right)+C\\ &= - \dfrac{N+1}{2}\left(\mu - \dfrac{1}{N+1}\sum_{n=1}^N x_n\right)^2 +C \end{align} $$
$\log p(\mu\mid \mathcal{D})$ が $\mu$ に関する二次形式なので、 $p(\mu\mid\mathcal{D})$ は正規分布。
データセット $\mathcal{D}$ に $x_{N+1}=0$ を加えたような推定値が得られる