Open WebUIで、モデルを設計したとたん、もっさもっさ動いていたのがキビキビ動くようになって特にメインモデルの Qwen 3.5 9B が安定して動くようになった。Open WebUIを本気で使うなら、モデル設定は絶対にやった方がよい。

ところで、EVO-X2などに搭載されているRyzen AI Max+ 395やRyzen AI 9 HX 370には、盲腸というか脾臓というか、あまり使い道のないNPUがついている。それを活用しようという話。Macでも、Apple Neural Engine向けにApfelのような実装がある。軽量のLLM用途だったら、Open WebUIやらOllama/llamaは要らない。OS、デバイス標準のLLMで十分。Open WebUIでは、通常のチャット以外にも、会話タイトル、タグ、フォローアップ質問、クエリ補助などを内部的にLLMで生成している。何も設定しないと、こうした軽作業までメインモデルが担当する。

GPUだけだと、いわば、F1のレースの帰りにF1カーでコンビニ行くような動きをする。

Open WebUIには Task Model という設定があり、こうした軽作業を小さいモデルへ割り振ることができる。ただし、Ollama側の小型モデルに任せると別の問題が出ることがある。たとえば OLLAMA_MAX_LOADED_MODELSなどの制約により、せっかくロードしていたメインモデル、つまりF1カー側がアンロードされてしまう場合がある。

そこで、NPUの軽量LLMの出番となる。NPU上の軽量LLMは、Ollamaで動いているわけでもなく、CPUでもGPUでもない。NPUという別枠で動くため、GPU上のメインLLMに干渉しにくい。もちろんNPUもメインメモリを使うが、軽量モデルに限定すれば消費量は小さい。EVO-X2やMacのようなUMA構成のマシンでは、NPUはこの手の軽作業に向いている。単純で短いLLM処理のために、わざわざGPU上の大きなモデルを呼び出す必要はない。応答も速く、待たされる感覚も少ない。

NPUを併用すると、F1カーでコンビニに行かなくてよくなる。

ちなみに、現時点のStrix Halo世代のNPU性能は、GPUと比較するとかなり控えめである。消費電力も低いが、推論速度もGPUの数分の一程度という報告が多い。そのため、大規模LLMではなく、Task Modelのような軽量用途に割り切って使うのがちょうど良い。

https://www.reddit.com/r/LocalLLaMA/comments/1rj3i8m/strix_halo_npu_performance_compared_to_gpu_and/

閑話休題

NPUの利用

NPUを使うと以下のような振り分けができる。

用途	実行先
Main Chat	Ollama + ROCm
Agent	Ollama
NPU	軽量Task Model
OCR	将来NPU
Whisper	将来NPU

AMD NPUドライバのインストール

Strix Haloには、NPUもついているのでNPUのドライバをいれて、NPUを軽量LLMとして動かしてみる。

確認環境:

– Ubuntu 26.04 ( Kernel 7.0.0-15-generic )

– EVO-X2 (Ryzen AI MAX+ 395 / Strix Halo )

注意点

AMD Ryzen AI Software 1.7.1 の Linux版debは Ubuntu 24.04向けである。現時点では正式サポート対象外の可能性があるため自己責任で実施すること。
Secure Boot有効時はDKMS module署名問題で読み込めない可能性がある。その場合はSecure Bootを無効化する。

0. AMD Ryzen AI XRT package の入手

AMD Ryzen AI Software 1.7.1 の Linux NPU XRT ZIP (RAI_1.7.1_Linux_NPU_XRT.zip ) を入手する。

https://ryzenai.docs.amd.com/en/latest/linux.html

ただし、アカウントが必要。さらに輸出許可書（住所を入れる）必要がある。

https://account.amd.com/en/forms/downloads/xef.html?filename=RAI_1.7.1_Linux_NPU_XRT.zip

1. AMD Ryzen AI XRT package を配置

/root/RAI_1.7.1_Linux_NPU_XRT.zip

2. 展開

cd /root

unzip ./RAI_1.7.1_Linux_NPU_XRT.zip

展開後:

xrt_plugin.2.21.260102.53.release_24.04-amd64-amdxdna.deb

xrt_202610.2.21.75_24.04-amd64-base.deb

xrt_202610.2.21.75_24.04-amd64-base-dev.deb

xrt_202610.2.21.75_24.04-amd64-npu.deb

3. DKMS導入

apt update

apt install -y \

dkms \

build-essential \

linux-headers-$(uname -r)

4. AMD XRT stack 導入

apt install -y \

./xrt_202610.2.21.75_24.04-amd64-base.deb \

./xrt_202610.2.21.75_24.04-amd64-base-dev.deb \

./xrt_202610.2.21.75_24.04-amd64-npu.deb \

./xrt_plugin.2.21.260102.53.release_24.04-amd64-amdxdna.deb

5. amdxdna driver 確認

dmesg | grep amdxdna

期待:

カーネル付属のドライバー (0.7.0)から新しいドライバーに更新されている。

[ 4.543530] amdxdna 0000:c7:00.1: [drm] Load firmware amdnpu/17f0_11/npu_7.sbin

[ 4.543559] amdxdna 0000:c7:00.1: enabling device (0000 -> 0002)

[ 4.684047] [drm] Initialized amdxdna_accel_driver 0.7.0 for 0000:c7:00.1 on minor 0

[201354.181644] amdxdna 0000:c7:00.1: [drm] Load firmware amdnpu/17f0_11/npu_7.sbin

[201354.298775] [drm] Initialized amdxdna_accel_driver 0.7.0 for 0000:c7:00.1 on minor 0

[201744.114219] amdxdna: loading out-of-tree module taints kernel.

[201744.114228] amdxdna: module verification failed: signature and/or required key missing – tainting kernel

[201744.120366] amdxdna 0000:c7:00.1: PASID address mode enabled

[201744.218044] [drm] Initialized amdxdna_accel_driver 1.0.0 for 0000:c7:00.1 on minor 0

6. XRT環境変数

cat <<‘EOF’ >/etc/profile.d/xrt.sh
# XRT environment for AMD Ryzen AI NPU.

export PATH=/opt/xilinx/xrt/bin:$PATH
export LD_LIBRARY_PATH=/opt/xilinx/xrt/lib:$LD_LIBRARY_PATH

# Avoid locale warnings from Lemonade / FLM / snap environment.
export LANG=C.UTF-8
export LC_ALL=C.UTF-8
EOF

source /etc/profile.d/xrt.sh

7. NPU認識確認

Ubuntu repository版の XRT package (libxrt-utils/libxrt2) と AMD公式XRT package が混在する可能性がある。基本的には AMD公式XRT package を優先利用する。

/opt/xilinx/xrt/bin/xrt-smi にあるファイルが本物。

which xrt-smi

xrt-smi examine

期待:

System Configuration

OS Name : Linux

Release : 7.0.0-15-generic

Machine : x86_64

CPU Cores : 32

Memory : 62903 MB

Distribution : Ubuntu 26.04 LTS

GLIBC : 2.43

Model : NucBox_EVO-X2

BIOS Vendor : American Megatrends International, LLC.

BIOS Version : EVO-X2 1.12

Processor : AMD RYZEN AI MAX+ 395 w/ Radeon 8060S

XRT

Version : 2.21.75

Branch : HEAD

Hash : 4eb1f4392a012b4e6eca759762389c612537f7c7

Hash Date : 2026-03-09 20:30:37

amdxdna Version : 2.21.260102.53.release_20260309, 6f881ad230142b707ca8ce5b33fca426a926c551

virtio-pci Version : 7.0.0-15-generic

NPU Firmware Version : 1.1.2.65

Device(s) Present

|BDF |Name |

|—————-|—————-|

|[0000:c7:00.1] |NPU Strix Halo |

NPUで動作するLLMの構築

目的:

Lemonade Server + FLM backend を利用
OpenAI互換APIを公開させ、Open WebUI から軽量LLMとして利用

NPU backend (FLM) を利用して軽量LLMを実行する。

Lemonade を利用する。Linux環境では snap版の lemonade-server を利用する。もう一つ lemonade-sdk というPython 3.12環境でのPython CLI / 評価・検証用SDKがあるがLLMを動かすだけなら不要。

Linux版 Lemonade Server には FLM backend が内包されていない。
そのため FLM/NPU backend を利用する場合は、FastFlowLM の Linux向け deb パッケージを別途インストールする必要がある。
今回の環境では Ubuntu 26.04 用 build の FastFlowLM 0.9.39 で動作確認した。

自分の環境で動作確認できた環境を列挙しておく。

Component	Version
lemonade-server	10.3.0
FastFlowLM	0.9.39
XRT	2.21.75
Kernel	7.0.0-15
Ubuntu	26.04

lemonade server のインストール

Snap経由でインストールをする。

apt update

apt install -y snapd

systemctl enable –now snapd.socket

snap install lemonade-server

cd /root

wget https://github.com/FastFlowLM/FastFlowLM/releases/download/v0.9.39/fastflowlm_0.9.39_ubuntu26.04_amd64.deb

apt install -y ./fastflowlm_0.9.39_ubuntu26.04_amd64.deb

flm –version

flm validate

snap restart lemonade-server

source /etc/profile.d/xrt.sh

which lemonade-server

lemonade-server –version

lemonade-server –help

lemonade-server status

lemonade-server backends

lemonade-server list

reboot

起動後の確認：

source /etc/profile.d/xrt.sh

xrt-smi examine

snap services lemonade-server

lemonade-server status

lemonade-server backends

※ reboot 後に `lemonade-server backends` で `flm npu installed` になっていることを確認する。

Recipe Backend Status Message/Version Action

—————————————————————————————————————————————————-

flm npu installed v0.9.39 –

kokoro cpu installed b16 –

llamacpp cpu installable Backend is supported but not installed. lemonade backends install llamacpp:cpu

metal unsupported Requires macOS –

rocm installable Backend is supported but not installed. lemonade backends install llamacpp:rocm

system unsupported llama-server not found in PATH –

vulkan installable Backend is supported but not installed. lemonade backends install llamacpp:vulkan

ryzenai-llm npu unsupported Requires Windows –

sd-cpp cpu installable Backend is supported but not installed. lemonade backends install sd-cpp:cpu

rocm installable Backend is supported but not installed. lemonade backends install sd-cpp:rocm

whispercpp cpu installable Backend is supported but not installed. lemonade backends install whispercpp:cpu

npu unsupported Requires Windows –

vulkan installable Backend is supported but not installed. lemonade backends install whispercpp:vulkan

—————————————————————————————————————————————————-

curl http://127.0.0.1:13305/v1/models

{“data”:[],”object”:”list”}

モデルがまだロードされていないので上記で正常

注意:

Lemonade Server の snap が更新されると、Linux版 FLM/NPU backend が `update_required` になり、FLMモデルが一覧から消える場合がある。

今回の環境では 10.4.0 で発生し、`snap revert lemonade-server` で 10.3.0 に戻すと復旧した。

安定運用する場合は snap の自動更新に注意する。

lemonade-server だけ holdする方法

snap refresh –hold=forever lemonade-server

snap refresh –time

snap list lemonade-server

Name Version Rev Tracking Publisher Notes

lemonade-server v10.3.0 165 latest/stable ken-vandine✪ held

解除：

snap refresh –unhold lemonade-server

バージョンとモデルの存在確認

snap list lemonade-server

lemonade-server –version

lemonade-server backends

lemonade-server list | grep flm

deepseek-r1-0528-8b-FLM No flm

deepseek-r1-8b-FLM No flm

embed-gemma-300m-FLM Yes flm

gemma3-1b-FLM No flm

gemma3-4b-FLM No flm

gemma4-it-e2b-FLM No flm

gpt-oss-20b-FLM No flm

gpt-oss-sg-20b-FLM No flm

lfm2-1.2b-FLM No flm

lfm2-2.6b-FLM No flm

lfm2-trans-2.6b-FLM No flm

lfm2.5-it-1.2b-FLM No flm

lfm2.5-tk-1.2b-FLM No flm

llama3.1-8b-FLM No flm

llama3.2-1b-FLM No flm

llama3.2-3b-FLM No flm

medgemma-4b-FLM No flm

medgemma1.5-4b-FLM No flm

nanbeige4.1-3b-FLM No flm

phi4-mini-it-4b-FLM No flm

qwen2.5-it-3b-FLM No flm

qwen2.5vl-it-3b-FLM No flm

qwen3-0.6b-FLM No flm

qwen3-1.7b-FLM No flm

qwen3-4b-FLM No flm

qwen3-8b-FLM No flm

qwen3-it-4b-FLM No flm

qwen3-tk-4b-FLM No flm

qwen3.5-0.8b-FLM Yes flm

qwen3.5-2b-FLM No flm

qwen3.5-4b-FLM No flm

qwen3.5-9b-FLM No flm

qwen3vl-it-4b-FLM No flm

translategemma-4b-FLM No flm

whisper-v3-turbo-FLM No flm

外部からlemonade-serverに繋げたい場合

lemonade-server config set host=0.0.0.0

snap restart lemonade-server

確認

lemonade-server config | grep host

ss -lntp | grep 13305

curl http://192.168.1.20:13305/v1/models

期待

0.0.0.0:13305 で LISTEN していること

0.0.0.0:13305

LLM使い方

注意:

現在の Linux版 FLM backend では NPUへ同時常駐できるモデル数は実質1つである。(Max Models/Type 1 )　よって、Embedding と Chat model など複数のモデルを同時ロードできない場合がある。
NPU実行時はメインメモリ(UMA)を消費する。

lemonade-server listでは大きいモデルも表示されるが、NPUはGPUの代替として大型LLMを高速に動かすためではなく、GPUをOllama/ComfyUIに空けたまま、Task Modelや軽量LLM、Embedding、Whisperのような補助AI処理を常駐させるために使うのが現実的である。よって、ちゃんとしたGPU/VRAMがついているので、わざわざNPUで大容量のモデルを動かす価値はほとんどない。

というわけで、qwen3.5-0.8b-FLMを動かしてみる。

# Model　list

lemonade-server list

# Model pull

lemonade-server pull qwen3.5-0.8b-FLM

#model load

lemonade-server load qwen3.5-0.8b-FLM

#model

curl http://127.0.0.1:13305/v1/models

Open WebUI向けにTask Modelと軽量LLMデモとして、qwen3.5-0.8bを使う場合

Open WebUI → Settings → Connections → OpenAI API

OpenAI互換APIとして追加する。

source /etc/profile.d/xrt.sh

lemonade-server unload all

lemonade-server pull qwen3.5-0.8b-FLM

lemonade-server load qwen3.5-0.8b-FLM

API確認：

curl http://127.0.0.1:13305/v1/models

チャット確認：

curl http://127.0.0.1:13305/v1/chat/completions \

-H “Content-Type: application/json” \

-d ‘{

“model”: “qwen3.5-0.8b-FLM”,

“messages”: [

{“role”: “user”, “content”: “日本語で短く自己紹介してください。”}

“temperature”: 0.2

}’

起動スクリプト

cat <<‘EOF’ >/usr/local/bin/lemonade-startup-load.sh

#!/bin/bash

# Load default Lemonade NPU chat model after server startup.

export PATH=/opt/xilinx/xrt/bin:/snap/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

export LD_LIBRARY_PATH=/opt/xilinx/xrt/lib

sleep 10

lemonade-server load qwen3.5-0.8b-FLM

EOF

chmod +x /usr/local/bin/lemonade-startup-load.sh

※ snap版のsystemd unit名は環境により異なる可能性があるため、必要に応じて以下で確認する。

systemctl list-units ‘snap.lemonade-server*’ –no-pager

起動スクリプト本体

cat <<‘EOF’ >/etc/systemd/system/lemonade-model-load.service

[Unit]

Description=Load default Lemonade NPU model

After=snap.lemonade-server.daemon.service network-online.target

Wants=network-online.target

[Service]

Type=oneshot

ExecStart=/usr/local/bin/lemonade-startup-load.sh

RemainAfterExit=yes

[Install]

WantedBy=multi-user.target

EOF

systemctl daemon-reload

systemctl enable lemonade-model-load.service

確認：

systemctl start lemonade-model-load.service

systemctl status lemonade-model-load.service –no-pager

curl http://127.0.0.1:13305/v1/models

Open WebUIを使う場合の設定

Base URL: http://EVO-X2-IP:13305/v1

API Key: dummy

System Prompt

Always respond in Japanese.

Be concise and direct.

Do not explain unnecessarily.

Advanced Paramの設定

Open WebUI項目	推奨
用途	Task Model / Title / Tag / Query補助 / 軽量Chat
Stream Chat Response	On
Function Calling	Off または Default　Nativeは不要
Reasoning Tags	Disabled
Temperature	0.2〜0.4
Top P	0.8〜0.9 (Default)

うまくいけば、モデル選択にModel: qwen3.5-0.8b-FLMが表示されるはず。

TASK MODELにModel: qwen3.5-0.8b-FLMを設定しておく。

＜参考＞Embeddingを使う場合

qwen3.5-0.8b-FLMの代わりにembed-gemma-300m-FLMといったようなEmbeddingを使うこともできるが、RAGの頻度が少ない、逆にRAGの頻度が多ければ、nomic-embed-text-v2-moeといったモデルをGPUで使った方がいいので、あまりおすすめしない。

モデルのロード

lemonade-server unload all

lemonade-server pull embed-gemma-300m-FLM

lemonade-server load embed-gemma-300m-FLM

APIの確認

curl http://127.0.0.1:13305/v1/embeddings \

-H “Content-Type: application/json” \

-d ‘{

“model”: “embed-gemma-300m-FLM”,

“input”: “EVO-X2のNPUでembeddingを実行するテスト”

}’

起動スクリプト

cat <<‘EOF’ >/usr/local/bin/lemonade-startup-load.sh

#!/bin/bash

# Load default Lemonade models after server startup.

export PATH=/opt/xilinx/xrt/bin:/snap/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

export LD_LIBRARY_PATH=/opt/xilinx/xrt/lib

sleep 10

lemonade-server load embed-gemma-300m-FLM

# Optional: load chat model instead of embedding.

# Lemonade Server currently supports Max Models/Type = 1.

# lemonade-server load qwen3.5-0.8b-FLM

EOF

chmod +x /usr/local/bin/lemonade-startup-load.sh

Open WebUI

Base URL: http://EVO-X2-IP:13305/v1

API Key: dummy

モデル選択でembed-gemma-300m-FLMが表示されてしまうので、非表示にして、Document設定のモデル選択で指定をする。

＜参考＞Whisperを使う場合

※ Linux版では whispercpp:npu backend は未対応。

現時点では FLM版 whisper-v3-turbo-FLM を使用するしかない。

今のところCPUでやった方が全然速くて効率的なのでおすすめはしない。

lemonade-server unload all

lemonade-server pull whisper-v3-turbo-FLM

lemonade-server load whisper-v3-turbo-FLM

これで余計なモデルがOllamaにロードされなくなってOpen WebUIがさらに快適になった。

ちなみに、脾臓が不要といわれているが、アーティスティックスイミングの選手は脾臓が大きいらしい。水面下で息を止めていると血液内の酸素が少なくなるので、脾臓で血液を貯めて潜水時間を長くしているらしい。つまり、必要な人には必要な脾臓。NPUも同じようなものかもしれない。

EVO-X2などのAMD Ryzen AI NPUをLinuxでLLMに使う

NPUの利用

AMD NPUドライバのインストール

0. AMD Ryzen AI XRT package の入手

1. AMD Ryzen AI XRT package を配置

2. 展開

3. DKMS導入

4. AMD XRT stack 導入

5. amdxdna driver 確認

6. XRT環境変数

7. NPU認識確認

NPUで動作するLLMの構築

lemonade server のインストール

LLM使い方

Open WebUI向けにTask Modelと軽量LLMデモとして、qwen3.5-0.8bを使う場合

＜参考＞Embeddingを使う場合

＜参考＞Whisperを使う場合

コメントするコメントをキャンセル

NPUの利用

AMD NPUドライバのインストール

0. AMD Ryzen AI XRT package の入手

1. AMD Ryzen AI XRT package を配置

2. 展開

3. DKMS導入

4. AMD XRT stack 導入

5. amdxdna driver 確認

6. XRT環境変数

7. NPU認識確認

NPUで動作するLLMの構築

lemonade server のインストール

LLM使い方

Open WebUI向けにTask Modelと軽量LLMデモとして、qwen3.5-0.8bを使う場合

＜参考＞Embeddingを使う場合

＜参考＞Whisperを使う場合

コメントする コメントをキャンセル

コメントするコメントをキャンセル