にNVFP4が速いというのが書いてあったので試してみた。NVFP4が速くなるためには
- BlackwellのGPUであること
- CUDA13.0以上であること
- Pytorchが2.10以上であること
らしい。
実際に比較してみた。
- NGC pytorchイメージ 25.11と26.02でComfyUIのイメージを作って、Z-Image-Turboのデフォルトプロンプトで生成時間の比較
- NGC 25.11は、torchaudioは、pytorch 2.10と異なり、2.9が入っている(NGCイメージには、torchaudioが入っておらず、 25.11ではtorchaudio 2.10は入らなかった)
- 5060 TiもDGX SparkもDynamic RAMを有効にしてある。(NGCイメージだとDGX Sparkでは、aimdoを入れてあげないとDynamic RAMが使えない。)
- 5060 Ti、DGX Sparkともにドライバーは 580、CUDAは13(Ubuntuのインストーラの推奨設定)
- DGX Sparkのモデルが入っているディレクトリのあるストレージは、外付けUSBなため、初回生成は遅い。
利用したイメージのDockerfile
25.11
26.02
Docker composeの設定
測定方法
Z-image-turboのテンプレートをロードして、デフォルトプロンプトで生成。

unetで使うモデルをNVFP4にする。
実測
測定は、WebUIで都度生成。APIで自動化するともっと速いかもしれない。
|
GPU
|
Image
|
UNet
|
1回目
|
2回目
|
3回目
|
|---|---|---|---|---|---|
|
5060 Ti 16GB
|
NGC 25.11
|
BF16
|
13.25s
|
10.19s
|
10.23s
|
|
NVFP4
|
7.10s
|
4.40s
|
4.40s
|
||
|
NGC 26.02
|
BF16
|
13.18s
|
10.20s
|
10.21s
|
|
|
NVFP4
|
7.13s
|
4.37s
|
4.38s
|
||
|
DGX Spark
|
NGC 25.11
|
BF16
|
41.23s
|
7.60s
|
7.59s
|
|
NVFP4
|
36.07s
|
5.46s
|
5.45s
|
||
|
NGC 26.02
|
BF16
|
50.05s
|
7.61s
|
7.61s
|
|
|
NVFP4
|
32.31s
|
5.50s
|
5.49s
|
25.11 vs. 26.02はそれほど変わらず。
BF16でみると、DGX Sparkが速く、7.6秒 (5060 TI 10.2秒)
NVFP4で見ると、5060 Tiの方が速く、4.4秒 (DGX Spark 5.5秒)
結果
ホストがCUDA 13なので、CUDA13.1の26.02をあえて使う必要はない。
よって、どちらの環境でも25.11でNVFP4がベスト
5060 Tiが最速なのは、dGPUのメモリ帯域が速いからではないかと。
-
5060 Ti: 448 GB/s
-
GDX Spark: 273 GB/s
ざっくり言うと、5060 Ti の方が約 1.6 倍メモリ帯域が太い
どの環境でNVFP4だと5秒程度で1枚生成できるので、生成がもはやスライドショーなみのスピードでできてしまう。
それにしてもここまで、NGCのイメージを作り込んだのはないかもしれない。(自慢)