学習に用いる損失関数はL2ノルムつかっちゃうのが一般的だし、計算が早いし、単純だしなんだけど、なんか痒い。
最終的に出力の評価はコサイン類似度つかうから、コサイン類似度から損失関数作ってぶちこもうぜとなってる。
いまいまは損失関数にL2ノルムつかってみてるけど、ちょっと学習率を強めにすると、パラメーターが発散しちゃってうまく学習できてない。
発散しないようにいい感じ™️の正則化項をもうけてやるのが現実解なんだろうなぁ……
学習に用いる損失関数はL2ノルムつかっちゃうのが一般的だし、計算が早いし、単純だしなんだけど、なんか痒い。
最終的に出力の評価はコサイン類似度つかうから、コサイン類似度から損失関数作ってぶちこもうぜとなってる。
いまいまは損失関数にL2ノルムつかってみてるけど、ちょっと学習率を強めにすると、パラメーターが発散しちゃってうまく学習できてない。
発散しないようにいい感じ™️の正則化項をもうけてやるのが現実解なんだろうなぁ……
数値微分と結果が一致することを確認できた
コサイン類似度: \( cos(X, Y) = \frac{\sum_{i=1}^{N}(X_i Y_i)}{\sqrt{\sum_{i=1}^{N}(X_i^2)} \sqrt{\sum_{i=1}^{N}(Y_i^2)}} \)
目標とする類似度: \(t\)
コサイン類似度からなる損失関数: \( L(X, Y, t) = (t- cos(X, Y))^2 \)
より
コサイン類似度からなる損失関数を\(X_i\)について偏微分した式
を求める。