https://zenn.dev/mizchi/articles/browser-gzip-inflate-deflate
{onnxruntime-node}{gzip}{ONNX}(3)
t_w
{onnxruntime-nodeでgzipで圧縮したonnxファイルを読み込む K#EDD2/7183}
const onnx_zip = fs.readFileSync('./sonoisa_sentence-bert-base-ja-mean-tokens-v2_onnx/model_quantized.gz');
const onnx_buffer = zlib.unzipSync(onnx_zip)
const session = await ort.InferenceSession.create(onnx_buffer);
{あれ}{gzip}{Sentence Embedding}(3)
t_w
{あれ K#EDD2/C873}
そういうわけでgzipでSentence Embeddingが作れるんじゃないかと予備実験してみるとこんな感じ。そこまでパキッとしてないのでそんなに精度が出なさそうな感じがある。類義語をうまく取り扱えてないという感触。
類義語はともあれ、同じ文字が使われていれば類似度が出るので、最低限のベースラインとしては使えそう。
ちなみに、「類似度」というラベルで出しているが、サイズの比になるので、この値は小さいほど類似度が高いということになっている。
{sentence classification}{gzip}(2)
t_w
{『“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors』 K#EDD2/84F6}
{kNN}{『“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors』}{sentence classification}{gzip}(4)
t_w
{あれ K#EDD2/373D}
{
gzip}