ComfyUIで、NVFP4のモデルを使ってみる

にNVFP4が速いというのが書いてあったので試してみた。NVFP4が速くなるためには

らしい。

実際に比較してみた。

NGC pytorchイメージ 25.11と26.02でComfyUIのイメージを作って、Z-Image-Turboのデフォルトプロンプトで生成時間の比較
NGC 25.11は、torchaudioは、pytorch 2.10と異なり、2.9が入っている（NGCイメージには、torchaudioが入っておらず、 25.11ではtorchaudio 2.10は入らなかった）
5060 TiもDGX SparkもDynamic RAMを有効にしてある。（NGCイメージだとDGX Sparkでは、aimdoを入れてあげないとDynamic RAMが使えない。）
5060 Ti、DGX Sparkともにドライバーは 580、CUDAは13（Ubuntuのインストーラの推奨設定）
DGX Sparkのモデルが入っているディレクトリのあるストレージは、外付けUSBなため、初回生成は遅い。

利用したイメージのDockerfile

25.11

26.02

Docker composeの設定

Z-image-turboのテンプレートをロードして、デフォルトプロンプトで生成。

unetで使うモデルをNVFP4にする。

測定は、WebUIで都度生成。APIで自動化するともっと速いかもしれない。

GPU	Image	UNet	1回目	2回目	3回目
5060 Ti 16GB	NGC 25.11	BF16	13.25s	10.19s	10.23s
	NGC 25.11	NVFP4	7.10s	4.40s	4.40s
	NGC 26.02	BF16	13.18s	10.20s	10.21s
	NGC 26.02	NVFP4	7.13s	4.37s	4.38s
DGX Spark	NGC 25.11	BF16	41.23s	7.60s	7.59s
	NGC 25.11	NVFP4	36.07s	5.46s	5.45s
	NGC 26.02	BF16	50.05s	7.61s	7.61s
	NGC 26.02	NVFP4	32.31s	5.50s	5.49s

25.11 vs. 26.02はそれほど変わらず。

BF16でみると、DGX Sparkが速く、7.6秒 (5060 TI 10.2秒)

NVFP4で見ると、5060 Tiの方が速く、4.4秒 (DGX Spark 5.5秒)

ホストがCUDA 13なので、CUDA13.1の26.02をあえて使う必要はない。

よって、どちらの環境でも25.11でNVFP4がベスト

5060 Tiが最速なのは、dGPUのメモリ帯域が速いからではないかと。

ざっくり言うと、5060 Ti の方が約 1.6 倍メモリ帯域が太い

どの環境でNVFP4だと5秒程度で1枚生成できるので、生成がもはやスライドショーなみのスピードでできてしまう。

それにしてもここまで、NGCのイメージを作り込んだのはないかもしれない。（自慢）