Open WebUIが微妙だと思ったら読む記事

いまだにOpen WebUIをDockerで立てるという記事が散見されるが、単純に使うなら、WindowsかMacのDesktop版でネイティブアプリ的なインストーラーで入れた方がDockerも不要で圧倒的に楽。さらに、入れたのに使い込んだ話が少ないのは、APIやCurlで書かなくても手軽にモデルの動作体験ができるからか、使い始めたはいいけど結局、あんまし使えない。まだ、Chat GPT、Copilotの方がマシという感じで終わるからかもしれない。多分POCとかやってた企業もみんなそんな感じなのかもしれない。
 
ちょっと待った。3分で設定変えて、もう一度試してみてほしい。たった3分。3分で別物に化ける。逆にこれ以上の設定は、個別のハイレベルのチューンナップだと思っても過言ではない。
 

3分でOpen WebUIを爆速化する最低限の設定

Open WebUIを、入れただけだと
  • なんか遅い
  • 回答が重い
  • RAGが微妙
  • Web検索が使い物にならない、してくれない。
と感じることがある。でも、まず見るべき場所は意外と少ない。モデルのダウンロード時間を除けば3分程度の作業。

やることはこれだけ

1. モデル設定を Native にする

Open WebUI のモデル設定で Function Calling を Native にする。
これだけでモデルがビルトインツールを正しく利用できるようになる。そんなことまでしてくれるの?というくらい化ける。

2. Thinking を Off にする

近頃のモデルは、Thinkingモデルが多い。軽い質問まで毎回じっくり考え込ませる必要はない。
  • 雑談
  • 要約
  • 一般的な質問
  • RAG確認
なら Thinking Off で十分だ。重い推論が必要なときだけ Thinking モデルを使う。
 
また、リソースに余裕があるのであれば、コンテキストサイズも大きくできるのであれば大きくしておく。今時、コンテキストサイズが4096とか8192だと何もできない。使い切らないかもしれないが、32k以上がベスト。爆速化するとこれでも小さいと思うかもしれない。
 
 

3. Embed model を入れる

RAGだけではなく、単純に添付ファイルを使う、WebURLを貼り付けるだけでも埋め込みモデルは実は必須。
 
まずは以下を実行してモデルを落としておく。たった1GB程度。
ollama pull nomic-embed-text-v2-moe:latest

4. Document 設定で Embed model を指定する

管理画面から
Admin Settings → Documents → Embedding Model
を開き、
nomic-embed-text-v2-moe:latest
を指定。
 
RAGとか使わない、よくわからないからと言って、ここを未設定のまま使っている人が意外と多い。ここにモデル名を入れることで、チャットに貼り付けた添付ファイルやURLの内容をきちんと扱えるようになる。

5. Web検索をオンにする

Web検索も有効にする。
 
ローカルLLMは
  • 知識が古い
  • URLを捏造する
  • 製品仕様を間違える
  • 交通経路を適当に答える
ことがある。
 
Web検索を有効にすると、
  • 最新情報
  • URL確認
  • 製品仕様
  • エラーメッセージ調査
  • ニュース
などを取得できるようになる。これらを自動でやってくれるのではと思うかもしれないが、実はオンにする必要がある。
 
おすすめは SearXNG
手元にSearXNGの環境 がない場合は、設定が簡単な DuckDuckGo にする。完璧ではないが、無効にしておくよりは圧倒的にマシ。
 

6. モデルはケチらない

小さいモデルは、複雑なことはできない。自分はそう思っていなくても、LLMにとっては複雑なこともある。
リソースが許す限り、大きめのモデルを使う。お試しだからと言ってわざわざ小さいモデルは意味はない。
思い通りに動かないと思っていたら、単純にモデルがしょぼかっただけだったり、逆にモデルをあげたら突然知らないツールを使い出した、タスクごとに動き始めた、なんていうことがある。
使えるリソースが決まっているなら、単純に小さいモデルへ逃げるのではなく、プログラムに強いとか、Agentに強いなど用途に合ったモデルを選んだ方が効果的。

これだけで何が変わるか

設定
効果
Native モード
モデルがビルトインツールを利用できるようになる
Thinking Off
体感速度が上がる
Embed model 指定
添付ファイルやRAGの精度が向上する
Web検索オン
最新情報を取得できるようになる
モデルはケチらない 
回答品質とツール利用の安定性が上がる 

結論

Open WebUI は、Ollamaを登録して、モデルを入れただけでは本気は出さない。
 
最低限、
  • Native モード
  • Thinking Off
  • Embed model 指定
  • Web検索オン
  • モデルはケチらない
この5つを入れるだけで、かなり化ける。
 
「Open WebUI での応答が遅い」
「便利そうなツールが呼ばれない、変わり映えしない」
「ファイルの添付をつけてもクルクルのまま貼り終わらない」
 
と思ったら、まずここを確認。
 
環境を潰すのは、「今何時ですか?」と入力して、見たこともないツールが勝手に起動し、正しい時刻を返してくるのを体験してからでも遅くはない。
 

コメントする