{学習データ K#EDD2/DB91}t_w(9){あれ}{あれ}{あれ}{あれ}{良い学習データ}{tzmtwtr/tw-posts-ja}{あれ}{あれ}{『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』}
{あれ K#EDD2/95C6}t_w 末尾の「だ、である」調と「です、ます」調 で Sentence Embeddingが極端に変わってしまって、類似度が低くなるのは、学習データの偏りもありそう。私t_wがデライトに投稿した文章から学習させているので、「だ、である」の文章が偏って多い。
{『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』 K#EDD2/D7C7}t_w https://www.technologyreview.jp/s/291329/we-could-run-out-of-data-to-train-ai-language-programs/