{コサイン類似度からなる損失関数の微分}{L2ノルム}{損失関数}(3)

{あれ K#EDD2/3246}

学習に用いる損失関数はL2ノルムつかっちゃうのが一般的だし、計算が早いし、単純だしなんだけど、なんか痒い。
最終的に出力の評価はコサイン類似度つかうから、コサイン類似度から損失関数作ってぶちこもうぜとなってる。

いまいまは損失関数にL2ノルムつかってみてるけど、ちょっと学習率を強めにすると、パラメーターが発散しちゃってうまく学習できてない。
発散しないようにいい感じ™️の正則化項をもうけてやるのが現実解なんだろうなぁ……

{L2ノルム}{損失関数の微分}{数値微分}(3)
{L2ノルム}

{}