手元にAI環境があるということは、最初はLMStudioを使ってみる、ComfyUIで画像生成してみるなんてことをしてきたが、いろいろやってみると画像生成のほうが結果が秒で出てくるのでわかりやすい。一方LLMは、どちらかというとPromptの内容だったり、パーセンタイルなので、質問の種類とか書き方で結果が変わるので、いまいちパフォーマンスがわからない。
ComfyUIは、適当にコンテナイメージを落としてつかっても良かったんだけど、真剣にDockerfileを使って作ってみた。作ってみると結構教科書通りのサンプルにもなったので、とても勉強になった。
作ったDockerfileがこれ。
https://github.com/masezou/ComfyUI-series
NVIDIA 5060TiとDGX Spark、 Strix Halo向けのDocker イメージ。NVIDIAは、CU130,CU128,CU126の3つをDocker hubやNGCのイメージで作ってある。こうした目的は?
- Blackwell最適化イメージ:パフォーマンスが最大限出るのでは?
- Blackwellでも動くイメージ:オールジャンルで動くがBlackwellのパフォーマンスは期待できないか?
- Blackwellが動かないイメージ:わざとつくってみただけ?動かないのを確認する。
さらに、ベースイメージは以下、
- Docker Hub pytorch
- Docker Hub CUDA
- NvidiaのNGC
3つ用意してみた。NGCは、TorchAudioが入っていないので、CPUモードだが別途いれたもの。
同じ作り方できたので、AMDのROCm版も作ってみた。
と言う感じ。
ビルド環境は、incusで大量にリソースを割り当てたビルドサーバVMを用意して、ビルドキャッシュとともにレジストリへ転送してつくるようにしているが、全部ビルドするのに1日くらいかかる。
以下がテスト結果
Legacy環境は持っていないので未確認
実行時間(3回)のまとめ(5060 Ti / ワークフロー:z-image-turbo )
|
Image
|
torch / CUDA
|
sage attention
|
1回目 (cold)
|
2回目
|
3回目
|
2-3平均 (warm avg)
|
warmのブレ
|
|---|---|---|---|---|---|---|---|
|
comfyui-dh:2.10.0-cu130
|
2.10.0+cu130 / 13.0
|
✅
|
15.46s
|
5.88s
|
5.86s
|
5.87s
|
±0.01
|
|
comfyui-dh-cu128:2.7.0-cu128
|
2.7.0+cu128 / 12.8
|
❌(無効)
|
15.75s
|
7.51s
|
7.50s
|
7.51s
|
±0.01
|
|
comfyui-dh-nvidia:cu130
|
2.10.0+cu130 / 13.0.2
|
✅
|
15.77s
|
5.87s
|
5.88s
|
5.88s
|
±0.01
|
|
comfyui-dh-nvidia:cu128
|
2.10.0+cu128 / 12.8.0
|
✅(ただし警告あり)
|
15.75s
|
6.24s
|
6.14s
|
6.19s
|
±0.05
|
|
comfyui-ngc:25.11
|
2.10.0a0 nv25.11 / 13.0
|
✅
|
16.22s
|
5.91s
|
5.85s
|
5.88s
|
±0.03
|
|
comfyui-ngc:25.03
|
2.7.0a0 nv25.03 / 12.8
|
✅(ただし警告あり)
|
18.03s
|
7.24s
|
7.26s
|
7.25s
|
±0.01
|
実行時間(3回)のまとめ(DGX Spark / ワークフロー:z-image-turbo)
comfyui-ngc:25.03は、動かなかった。
|
イメージ
|
CUDA / torch
|
Run1
|
Run2
|
Run3
|
平均(3回)
|
平均(2-3回)
|
備考
|
|---|---|---|---|---|---|---|---|
|
comfyui-dh-nvidia:cu130
|
CUDA 13.0 / torch 2.10.0+cu130
|
11.11
|
4.51
|
4.55
|
6.72
|
4.53
|
capability 12.1に対し “max 12.0” 警告あり
|
|
comfyui-dh-nvidia:cu128
|
CUDA 12.8 / torch 2.10.0+cu128
|
28.01
|
23.86
|
23.95
|
25.27
|
23.91
|
“cu130以上必要” 警告。明確に遅い
|
|
comfyui-ngc:25.11
|
CUDA 13.0 / torch 2.10.0a0 nv25.11
|
10.29
|
4.50
|
4.54
|
6.44
|
4.52
|
torchaudio OK / 警告なしでGB10認識
|
いろいろ調べたのだが、結論として
5060 Ti:Docker HubのPytorchのイメージか、NGCのCU130のイメージが一番いい。どちらのケースもCU128のイメージは動くが遅い。
comfyui-dh:2.10.0-cu130 か comfyui-ngc:25.11
DGX Spark:NGCのCU130のイメージ (comfyui-ngc:25.11)は、警告がでないが、 12.0+PTXで逃がしていてまだ正式対応ではない。、Docker HubのCUDAイメージは、逃がしてもなく、警告が出てしまう。警告がでないようにするのは、NGCに付属のPytorchを使うしかない。
comfyui-ngc:25.11のみ
ということがわかった。
さーて、確認が終わったのでBuild Cacheを消そう。しかし、前にチューニングしたものより全然シンプルで同等性能だったとは、前は何をしていた???
DGX Sparkは新すぎて色々難があるなぁ、5060 TiのBlackwellはまだマシだが、CU130でイメージを出してくれないと調整済みではないということか。今日の時点だと4000シリーズで止めておいた方が幸せかもしれない。