ComfyUI 0.8.2での比較 - Slow-fire hacking next

実は、DGX Spark （ASUS GX10)も買ってしまった。メモリが高騰して当分投資ができないだろうということでエイやっと。メモリを買うお金を考えると安いのではないか？？？と考えてみた。

仮想化の時代機材は、全て撤去。パーツは、メモリの買い取り価格が上がったら売却する予定。そうすると、GX10代の何割くらいかは出そう。それくらいある。不要機材はもはや物理版NISA、オルカン並に価格が上がっている。

ComfyUIは何気にすごい。アラジンと魔法のランプのように、呪文を唱えると結構綺麗な絵が出てくる。

ただ、インプレスの西川さんのYoutubeを見ているとなんか自分の環境のスピードが遅い。直接、西川さんに聞いてもいいのだが。。。自分で調べてみることに。

閑話休題

ComfyUIの動作確認でテストをしてみた。

環境

GPU Server: Intel Core i5-12400 / MSI PRO B760M-E DDR4 / Nvidia GeForce RTX 5060 Ti VRAM16GB Ubuntu 24.04.3
GDX Spark: ASUS GX10 VRAM 128GB (共有メモリ）
EVO-X2 VRAM 128GB（共有メモリ）

自分もあまりわかっていないのでChat GPTに作り方を教えてもらう。その順番でテストをしてみる。

Normal: docker hubのイメージ (nvidia/cuda:12.8.0-cudnn-devel-ubuntu24.04）
Local: docker hubのイメージで、Ccomfy_kitchen backendをTridentにしてみたもの (nvidia/cuda:12.8.0-cudnn-devel-ubuntu24.04)
NGC：Nvidiaのコンテナイメージ (nvcr.io/nvidia/pytorch:25.11-py3)

NGCのイメージ(nvcr.io/nvidia/pytorch:25.11-py3)は、NvidiaのAPI Tokenでdocker loginをしないと使えないので注意。25-12だとCUDA13が使えるっぽいが危ないので、CUDA12にした。

たまたま、RTX 5060 Ti も DX Spark: ASUS GX10もBlackwellだからいいが、他のが混じっていたらもっと面倒だったかも。ただし、AMD64とARM64なのでイメージを別につくらないといけないのは同じだが。

作成されたコンテナイメージサイズ

GPU Server

IMAGE ID DISK USAGE CONTENT SIZE EXTRA

comfyui-bw:local 2723614ab60b 32.2GB 13.2GB

comfyui-bw:normal 3cf3c4678057 31.6GB 13GB

comfyui-ngc:25.11 dd7257576647 32.1GB 9.83GB

GX10

REPOSITORY TAG IMAGE ID CREATED SIZE

comfyui-bw local e6628e6d1fd2 About a minute ago 13.4GB

comfyui-bw normal 7559999366c3 30 minutes ago 13GB

comfyui-ngc 25.11 8dfa6fb9f5b3 2 hours ago 20.4GB

いずれも10GB超え。モデルも300GBくらいになってしまった。内臓ディスク1TB単体だとかなりキツい。とてもローカルで管理することは無理で、NFSやらコンテナレジストリがないとやってられない。

結果

テストに使ったモデルは、z-model-turbo。

まずは結果を並べてみる。

Normal (comfy_kitchen backend eager)

	GPU Server	GDX Spark
初回	52.14	103.27
２回目	6.56	25.19
３回目	6.58	25.20

Local (comfy_kitchen backend triton)

	GPU Server	GDX Spark
初回	30.75	64.59
２回目	6.24	24.66
３回目	6.04	24.74

NGC

(comfy_kitchen backend cuda)

	GPU Server	GDX Spark
初回	15.34	9.21
２回目	5.99	3.87
３回目	見切れてしまった	3.87

NGC

(comfy_kitchen backend triton)

	GPU Server	GDX Spark
初回	15.01	12.56
２回目	5.99	3.88
３回目	5.88	3.86

NGC

(comfy_kitchen backend eager)

	GPU Server	GDX Spark
初回	14.15	9.26
２回目	6.00	3.88
３回目	5.91	3.88

Kitchen Backendは、tritonのようにJITで動くものは、初回だけ時間がかかるが、２回目以降はあまり変わらない。CUDAとeagerの結果があまり変わらない。

EVO-X2

Windows 11 / ComfyUI Desktopバージョン

	EVO-X2
初回	36.83
２回目	11.52
３回目	11.41

どういうわけだか、Docker Hubのイメージの場合、Nvidia GeForce RTX 5060 Tiの方が速い。GX10は初めて買った車並みの値段をしたのに、1/8(購入当時）の値段のGPUに負けるとは何事だぁ。とはいえ、ComfyUIがRocmネイティブになる前は、１枚30秒で速ーっといっていたのだが。ちょっと遅すぎる。しかし同じような構成のEVO-X2とあまり変わらないからそんなものかと思っていた。

Nvidiaのコンテナイメージを使ったら状況が激変。まず、Nvidia GeForce RTX 5060 TiもGX10もパフォーマンスアップ。一桁秒に。さらに、ここでGX10がRTX 5060 Tiを追い抜く。NGC恐るべし。

EVO-X2も測定しなおしてみたら、それでも先週まで30秒台だったのだが、11秒台。もう少し頑張って欲しいところ。しかし、それでもだいぶ高速化。

ちょっと重めのQwen Image 2512もテストしてみた。

NGC (comfy_kitchen backend cuda) / ComfyUI Desktop (Windows)

	GPU Server	GDX Spark	EVO-X2 (Windows)
初回	408.17	391.93	874.11
２回目	346.84	257.25	816.27
３回目	346.70	252.48	816.45

LoRAのほうだと、10倍くらい速くなる。

EVO-X2は、VRAMを64GBに落と（メインメモリを増やす）さないとうまくいかなかった。メインメモリを圧迫しておかしくなるのでMMAPの設定をかえないとVRAM96GBで動かないのかもしれない。

それにしても、3秒くらいでZ-image-turboが使えるとなると。。。GPUが溶けそうになるはあながち間違っていないかも。今、誰もいない極寒の部屋で動かしているからいいが、夏までに彼らの「身」の振り方を考えないとまずい。

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル