{損失関数}{正則化}(2)

{ベクトルの大きさを1.0に近づける勾配 K#EDD2/CD4A}

$$ L = (\sum^{N}_{i=1}(X_i^2) - 1)^2 $$
$$ \frac{\partial L}{\partial X_i} = \frac{\partial (\sum^{N}_{i=1} (X_i^2) - 1)^2}{\partial X_i} $$
$$ = \frac{\partial (\sum^{N}_{i=1}(X_i^2) - 1)^2 }{\partial (\sum^{N}_{i=1}(X_i^2) - 1)} \frac{\partial (\sum^{N}_{i=1}(X_i^2) - 1)}{\partial X_i} $$
$$ = 2(\sum^{N}_{i=1}(X_i^2) - 1) (2 X_i) $$
$$ = 4X_i( \sum^{N}_{i=1}(X_i^2) - 1 ) $$
(1){あれ}
{コサイン類似度}{損失関数の微分}{コサイン類似度を目標値に近づける}{コサイン類似度を目標値に近づける勾配の微分の計算過程(できてない)}{あれ}{損失関数}(6)

{コサイン類似度からなる損失関数の微分 K#EDD2/D546}

数値微分と結果が一致することを確認できた


コサイン類似度: \( cos(X, Y) = \frac{\sum_{i=1}^{N}(X_i Y_i)}{\sqrt{\sum_{i=1}^{N}(X_i^2)} \sqrt{\sum_{i=1}^{N}(Y_i^2)}} \)

目標とする類似度: \(t\)

コサイン類似度からなる損失関数: \( L(X, Y, t) = (t- cos(X, Y))^2 \)

より

コサイン類似度からなる損失関数を\(X_i\)について偏微分した式

$$ \frac{\partial L(X, Y, t)}{\partial X_i} = \frac{\partial(t-cos(X,Y))^2}{\partial X_i} = \frac{\partial(t-cos(X,Y))^2}{\partial (t-cos(X,Y))} \frac{\partial(t-cos(X,Y))}{\partial cos(X,Y)} \frac{\partial cos(X,Y)}{\partial X_i} $$

を求める。


$$ \frac{\partial(t-cos(X,Y))^2}{\partial (t-cos(X,Y))} = 2(t-cos(X,Y))$$
読み込み中...
{コサイン類似度からなる損失関数の微分}{L2ノルム}{損失関数}(3)

{あれ K#EDD2/3246}

学習に用いる損失関数はL2ノルムつかっちゃうのが一般的だし、計算が早いし、単純だしなんだけど、なんか痒い。
最終的に出力の評価はコサイン類似度つかうから、コサイン類似度から損失関数作ってぶちこもうぜとなってる。

いまいまは損失関数にL2ノルムつかってみてるけど、ちょっと学習率を強めにすると、パラメーターが発散しちゃってうまく学習できてない。
発散しないようにいい感じ™️の正則化項をもうけてやるのが現実解なんだろうなぁ……

{}{問題}{損失関数}{正則化}(4)
{人事考課指標}{業績指標}{OKR}{KPI}{過学習}{損失関数}{正則化}(7)
{損失関数}

{}