{Cartesian Genetic Programmingで文章の類似度を学習}{あれ}(2)

{あれ K#EDD2/4160}

tokenAとtokenBの全組み合わせからEmbeddingを計算して平均を取る」方式を試してみている。まだパラメーターのチューニングお済みでないので最高スコアは良い感じに伸びない。ただ、良さそうなところまでは安定して学習してくれる。

入力となる単語ベクトルの突然変異に対して驚くほど頑健になった。再帰的構造をとっていた際には単語ベクトルの突然変異率を0.01倍程度の確率にしてやっと学習していたが、現在の方式では突然変異確率を1倍にしても学習している。突然変異による変動の範囲は「Intの最大値/10」とかいうアホみたいなことをしている。普通に考えれば学習するはずはない。

20個体で190世代目ぐらいのところで学習の処理が固まってしまう。一文が長いとだめっぽい。計算量がO(N^2)になるので、それはそう。

{Cartesian Genetic Programmingで文章の類似度を学習}{あれ}{学習データ}(3)

{あれ K#EDD2/95C6}

末尾の「だ、である」調と「です、ます」調 で Sentence Embeddingが極端に変わってしまって、類似度が低くなるのは、学習データの偏りもありそう。私t_wがデライトに投稿した文章から学習させているので、「だ、である」の文章が偏って多い。

{あれ}(1)
{あれ}(1)
{あれ}

{}