ComfyUIで、NVFP4のモデルを使ってみる

投稿者: | 3月 25, 2026
にNVFP4が速いというのが書いてあったので試してみた。NVFP4が速くなるためには
  • BlackwellのGPUであること
  • CUDA13.0以上であること
  • Pytorchが2.10以上であること
らしい。
 
実際に比較してみた。
  • NGC pytorchイメージ 25.11と26.02でComfyUIのイメージを作って、Z-Image-Turboのデフォルトプロンプトで生成時間の比較
  • NGC 25.11は、torchaudioは、pytorch 2.10と異なり、2.9が入っている(NGCイメージには、torchaudioが入っておらず、 25.11ではtorchaudio 2.10は入らなかった)
  • 5060 TiもDGX SparkもDynamic RAMを有効にしてある。(NGCイメージだとDGX Sparkでは、aimdoを入れてあげないとDynamic RAMが使えない。)
  • 5060 Ti、DGX Sparkともにドライバーは 580、CUDAは13(Ubuntuのインストーラの推奨設定)
  • DGX Sparkのモデルが入っているディレクトリのあるストレージは、外付けUSBなため、初回生成は遅い。

 

利用したイメージのDockerfile

25.11
26.02
Docker composeの設定
 

測定方法

Z-image-turboのテンプレートをロードして、デフォルトプロンプトで生成。
 
 
unetで使うモデルをNVFP4にする。
 

実測

測定は、WebUIで都度生成。APIで自動化するともっと速いかもしれない。

GPU
Image
UNet
1回目
2回目
3回目
5060 Ti 16GB
 
NGC 25.11
 
BF16
13.25s
10.19s
10.23s
NVFP4
7.10s
4.40s
4.40s
NGC 26.02
 
BF16
13.18s
10.20s
10.21s
NVFP4
7.13s
4.37s
4.38s
DGX Spark
 
NGC 25.11
 
BF16
41.23s
7.60s
7.59s
NVFP4
36.07s
5.46s
5.45s
NGC 26.02
 
BF16
50.05s
7.61s
7.61s
NVFP4
32.31s
5.50s
5.49s
 
25.11 vs. 26.02はそれほど変わらず。
BF16でみると、DGX Sparkが速く、7.6秒 (5060 TI 10.2秒)
NVFP4で見ると、5060 Tiの方が速く、4.4秒 (DGX Spark 5.5秒)
 

結果

ホストがCUDA 13なので、CUDA13.1の26.02をあえて使う必要はない。
よって、どちらの環境でも25.11でNVFP4がベスト
5060 Tiが最速なのは、dGPUのメモリ帯域が速いからではないかと。
  • 5060 Ti: 448 GB/s
  • GDX Spark: 273 GB/s
ざっくり言うと、5060 Ti の方が約 1.6 倍メモリ帯域が太い
 
 
どの環境でNVFP4だと5秒程度で1枚生成できるので、生成がもはやスライドショーなみのスピードでできてしまう。
それにしてもここまで、NGCのイメージを作り込んだのはないかもしれない。(自慢)

コメントを残す