{あれ}{ALBERT}{教師なしSimCSE}(3)
{DynamoDB}{Azure Cognitive Search}{あれ}{ALBERT}{AWS LambdaでSentence Embedding}{Sentence Embedding}{BERT}{ベクトル検索}{Go言語}(9)

{あれ K#EDD2/4A93}

いや、「ベクトル検索ぐらいマネージドサービスあるやろ」とはなるんだけど、たけーのよ。Azure Cognitive Searchとか、一番安いので月額1万円以上する。

DynamoDBとLambdaでやりくりすれば、維持費をほぼ0円、処理があっても月額100円ぐらいで何とかなるはずなんや。

で、そのために文章をベクトル化(Sentence Embedding)する処理が必要だったのだけどもですね、世のSentence Embeddingするライブラリやら言語モデル(BERTとか)やらはファイルサイズが巨大で、Lambda関数に乗り切らんかったわけです。

そこで、BERTを小型化したALBERTでSentence Embeddingが取れるように学習してたんですけども、やっとこさそれらしい結果が出せるようになってきた。

となると、次の課題はベクトル検索のDB部分なわけです。今はJavaScriptのライブラリを使ってるので速くないので、Go言語とかでやりたい。

というか、JavaScriptでのSentence Embeddingの計算は遅いはずなので、そこもGo言語に切り替えるうまみがあるはず。

(1){あれ}
{教師ありSimCSE}{ALBERT}{教師なしSimCSE}{Sentence Embedding}(4)
{日本語ALBERT}{東北大学}{あれ}{ALBERT}(4)

{あれ K#EDD2/3EF6}

東北大学あたりが日本語ALBERTやってくんねーかなぁ

{ALBERT}{BERT}(2)

{あれ K#EDD2/83C6}

BERTとALBERTの学習させてるんだけど、BERTの成績が良すぎて辛い。ALBERTが追い付かない。使っているALBERTのモデルが、「小さすぎる」可能性はある。

(1){あれ}
{ALBERT}{SimCSE}(2)

{あれ K#EDD2/C758}

ALBERTをSimCSEの学習させとるけど、Wikipediaのデータを20 epoch回すには1000時間かかるらしい

{GTX 1070 Ti}{ALBERT}{あれ}{SimCSE}{2023年8月11日}{Google Colaboratory}(6)

{あれ K#EDD2/50D6}

やったー
幣WindowsでGPUでALBERTのSimCSEの学習ができるようになったぞ
1回の学習にかかる時間が40時間から2時間に短縮された
それでもGoogle Colabと比べると2倍時間かかるので、良いぱしょこんが欲しい
1070 Tiはそろそろ買い替えていい頃合いと思う

{ALBERT}{SimCSE}{淡い夢}{2023年8月11日}{Sentence Embedding}{機械学習}(6)

{あれ K#EDD2/C90F}

昨日・今日とSentence Embeddingを吐くALBERTをSimCSEで学習させているが、少し前にちょいと試しで学習させたときの性能を上回ることができない。

機械学習はそんな淡い夢みたいなことが度々起こる。

(1){あれ}
{ALBERT}

{}