LinuxでのEVO-X2 (Strix Halo) の VRAM / GTT のまとめ

だいぶ、EVO-X2の調整ができるようになった。Linuxで常時稼働させることになったが、美味しい設定を調べることに。ようやく答えが出た。
 
EVO-X2では、BIOSでVRAMを大きく固定するだけでは最適にならない。
画像生成、動画生成、Ollama、Agent AI、ComfyUIでは、それぞれ必要とするメモリの性質が違う。
VRAM固定は高速だが、予約領域としてメインメモリを削る。
GTTはやや遅いが、未使用時にメインメモリとして使えるため柔軟性が高い。
Ollamaでは、GTTを大きく取ることで複数モデルを100% GPUとして扱える場合があり、Agent AI用途ではVRAM固定より実用的な場面がある。
つまり、EVO-X2の128GB RAMは「全部をVRAMにする」のではなく、
用途に応じてVRAM/GTT/通常RAMの配分を調整してこそ活きる。
 
ことがわかった。。。
 

EVO-X2 (Strix Halo) の VRAM / GTT のまとめ

VRAM と GTT がある

Strix Halo (Ryzen AI MAX+ 395 / Radeon 8060S) は UMA (Unified Memory Architecture) 構成であり、GPU専用メモリを持たず、システムRAMをGPUと共有して使う。
Linux + ROCm 環境では、大きく分けて以下の2種類がある。
 
項目
内容
VRAM
BIOSで固定確保されるGPU専用領域
GTT
GPUが必要時に使う共有メモリ領域(システムRAM側)
 
イメージとしては、
 
VRAM:
  最初からGPU専用として予約される固定領域
 
GTT:
  GPUが必要時にOS側RAMを借りる共有領域
 
に近い。
 
EVO-X2が販売開始されたときには、VRAMの設定が96GBまで設定できる!で一世風靡した。
 

VRAMをメインで使う場合

BIOSでVRAMを64GBに設定

画像生成特化なら、VRAMをメインに考える。
ComfyUIで確認すると、VRAM利用の方がGTT利用より約11%高速だった。
 
そのため、
  • 画像生成専用機
  • 動画生成専用機
なら、VRAM固定はかなり有効。
 
ただし、LTX Video 2.3のような動画生成では、VRAMを64GB程度にしておかないと動かない。ただし、動画生成ではGPUメモリだけではなく、通常RAM側もかなり消費する。これはWIndowsでも同じだった。
 

Ollama側の問題

ただし、Ollamaでは事情が異なる。
Ollamaは、VRAM内でのみモデルを動かそうとする傾向が強く、VRAM 64GBなら、64GB内でしかモデルをロードできないような挙動になる。
 
そのため、
  • qwen3.6:35b-a3b
  • gpt-oss:20b
のような大型モデル複数ロードでは、使っていないモデルがアンロードされるという動きになりやすい。
 
いわば、
「囚われのVRAM領域」
に近い。
 
VRAM固定は高速だが、その領域は完全にGPU専用予約となるため、使っていない時でも通常RAMとしては使えないというデメリットもある。
 

GTTをメインで使う場合

BIOSでVRAMを2GBに設定

VRAMはBIOSで最小限にすると、GTTをメインで使うことができる。
GTTはBIOSではなく、Linux側のカーネルパラメータで設定する。よって変更時は再起動が必要なのはVRAM設定と同じ。
 

ComfyUI側

画像生成でもGTTは使える。
ただし、LTX Video 2.3のような動画生成では、GTTも64GB程度必要だった。
 
つまり、VRAMでもGTTでも、動画生成では結局大容量GPUメモリ空間が必要
という点は同じ。
 
ただし速度は、VRAM > GTTであり、実測ではVRAMの方が約11%高速だった。
  • 速度最優先ならVRAM固定
  • 柔軟性重視ならGTT
という関係になる。
 

OllamaではGTTが非常に有効

ここがかなり重要。
Ollamaでは、VRAM 64GB固定より、VRAM 2GB + GTT巨大化(84GB)の方が、大型モデル複数ロードに向いていた。
 
例えば、GTT 84GBにすると、
  • qwen3.6:35b-a3b-agent-32k
  • gpt-oss:20b-main-32k
  • qwen3.5:9b-main-32k
のような32Kモデル複数ロードも可能だった。
 
しかも、ComfyUI Z-image Turbo程度なら、Ollama 2モデル同時稼働も可能だった。かなりギリギリではあるが、成立する。
 
このケースの場合、VRAMで固定するのと違って、使っていない、あるいは空いたGTTの領域は、普通のRAMとしても使うことができる。
ちょっとだけスピードを犠牲にしてもGTTとメインメモリの間仕切りが自由に動かせるのはいい。
 

CPUオフロードについて

一般的な NVIDIA + dGPU 環境では、
VRAM不足
CPU offload
という動きになりやすい。
 
しかし、Strix Halo + ROCm + UMA 環境では、GTT込みの巨大GPU memory poolとして扱われるような挙動になっていた。
 
つまり、CPU/GPU分離というより、巨大UMA GPUに近い。
 
少なくとも今回の Linux + ROCm + Ollama 環境では、
  • VRAM 2GB
  • GTT巨大化
でも、
  • 100% GPU
として複数モデルが動作した。これは従来の dGPU 的な感覚とはかなり違う。
 

Ollamaのモデル共有について

さらに、
  • qwen3.6:35b-a3b-agent-32k
  • qwen3.6:35b-a3b-main-32k
のように、
  • 同一ベースモデル
  • 同一コンテキスト長
なら、完全に別モデルとして巨大追加ロードされない可能性が高い。
 
このため、
  • Agent
  • Main
  • Code
を同一ベースモデルで揃えると、メモリ効率がかなり良くなり、多数のモデルをロードしてもGTTを使われない。VRAMでも同じ挙動。
Agent AI用途では、ここもかなり重要。
 

GTTのメリット

VRAM固定と違い、GTTは、未使用時は通常RAMとして利用可能なのが非常に大きい。
VRAM固定64GBだと、その領域は常にGPU専用予約になる。
しかしGTTでは、使っていない分はOS側RAMとして利用可能になる。
 
この違いはかなり大きい。
 
特に、
  • Ollama
  • Open WebUI
  • OpenClaw
  • ComfyUI
  • Qdrant
  • Docling
などのように、複数サービスを常時動かす Linux 環境では、この柔軟性がかなり効いてくる。
 

結論

現時点では、EVO-X2 (Strix Halo) を Linux + ROCm + Ollama + ComfyUI で使う場合、
 
BIOS設定でVRAM 2GB
カーネルパラメーターでGTT 64GB〜84GB
 
がかなりバランスが良かった。
 
特に、
  • Agent AI
  • Open WebUI
  • OpenClaw
  • 複数LLM常駐
を重視するなら、VRAM大量固定より、GTT巨大化の方が実用的だった。
 

最後に

2025年までの、「VRAM容量至上主義」の感覚で Strix Halo を見ると、EVO-X2 の本当の強みを見誤る。
Strix Halo世代では、固定VRAM容量ではなく、VRAM / GTT / 通常RAMをどう配分するか、そのものが性能設計になっている。
 
特にAgent AIでは、単純なVRAM容量より、巨大コンテキストを複数モデルでどう保持し、周辺サービスと共存させるかが重要になる。
 
EVO-X2は、単なる“小型GPUマシン”ではなく、「巨大UMAメモリマシン」として使うと、本領を発揮する。
 
 
というわけで、Linuxなら、BIOSでVRAM 2GBにして、GTTをカーネルパラメータで64-84GBに設定する。それだけで巨大UMAマシンとして体験できると思う。

コメントする