{sherpa}{ONNX}(2)
{NatML}{Barracuda}{Unity}{ONNX}(4)
{onnxruntime-nodeでgzipで圧縮したonnxファイルを読み込む}{onnxに変換して量子化するコマンド}{Sentence Embedding}{BERT}{ONNX}(5)

{あれ K#EDD2/490B}

500MBあるBERTをONNXに変換した後に量子化したら110MBほどになってLambdaで動かせるようになった。
Githubに乗せるファイルは100MB以下でないとだめなので、ダメ押しでgzipで圧縮したら75MBになった。

{onnxruntime-node}{gzip}{ONNX}(3)
{Next.jsでサーバーレスSentence Embedding}{optimum-cli}{transformers.onnx}{Next.js}{ONNX}(5)
{ONNX}

{}