先日まで、四苦八苦して、EVO-X2でLM Studio経由でGPT-OSS 120bが動かなくて、なんか無駄な買い物をしたかもと正直思っていた。その後、実は1週間くらい放置していた。先日、Vulkan 1.50で動くのを確認できてにんまりだったのだが、今日Vulkan 1.52.1がリリースされて無事修復された。
これで確保した過去バイナリもいらないかとも思ったが、ちょっと変な点があったので様子見に。
Vulkan 1.50の時、モデルをロードしてもメインメモリをそんなに使わなかったのだが、Vulkan 1.52.1は、一瞬だけ64GBまでメモリの利用量が上がる。自分の設定は、VRAM 64GBなので、メインメモリも64GBあるのでどうにか突破したが、VRAM 96GBにしたらどうなったんだろうか。ロード完了後は、メインメモリは13GB程度なんだが。それにしても、EVO-X2で稼働させるGPT-OSS 120Bのレスポンスはチョッ速で、Chat GPTを解約してもいいかもしれないと思った。ただ、VRAMをこいつにずっと占有させてしまうのは勿体無い。
気分を変えて、GPT-OSS 120Bをバックエンドにしてフロントエンドを展開してみた。長めのトークンで長めのリターンをもらうと思ったら、リターンで 8Kを使い切ってしまった。こういう使い方だとChat GPTの方がいいかもしれないが、Chat GPTは端折って回答してたのが、GPT-OSSは丁寧に回答してくれていると思う。
さすがにEVO-X2をGPT-OSSのために立ち上げたままにするのはもったいないので、代打としてIntel Xeon D-2123IT @ 2.20GHz 128GB RAMのサーバとNUC10I7FNH 64GB RAMを検討してみた、NUC10I7FNH 64GB RAMはお話にならず、Intel Xeon D-2123IT @ 2.20GHz 128GB RAMのサーバだと、GPT-OSS 20Bで1 ~ 2 tok/s程度。比較してマシなだけ。この円安と品不足でDDR4の価格が今週急上昇したが、もはや、このままいくと、DDR4は、DDR4に移った時のDDR3になったのかもしれない。Chat GPTに聞くと、埋め込み検索(RAGバックエンド)として使えると。RAGを使うにしてもそんなに用はないんだよなぁw(あることはあるんだがちょっとブログに書けない用しかない。)悩ましい。この2台は、ESXとかで仮想マシンを動かすんだったらいいんだけど、もうそんな仕事もしていないからなぁ。ESXなんて手元にせいぜい1台もあればいい。でもWindow11でHyper-Vが動くので、VMware自体いらないんだよなぁ、今や。
いずれにせよ、直近のIntel CPUはほんとゴミ。Intelも最新世代以外のVGAドライバーの積極的なメンテナンスを止めてしまった気持ちもわかる。そもそもCPU内蔵のGPUなんて、Web、メール、Youtube再生程度でしか使われないから。うーん、手持ちを全部売却して、もう一台EVO-X2が欲しい。