Mythos的な調査をローカルLLMで試してみた

前々から考えていたのだが、AIに何かやらせる。コンソールを触れたらなんでもできるんじゃと思っていたら、OpenClawがまさしくそれ。ブラウザをいれればブラウザも動かすとか。もうこうなると、Web試験とかAIが解いちゃうんじゃないか。もう少しするとWeb試験などは、すでにAIが解けてしまう場面もあるのではないかと思う。そうなると、今後はベンダー試験のあり方そのものも変わっていくのかもしれない。

そもそももうクラウド関連は、MCPがあるので、細かいコマンドとか知らなくても操作は普通にできてしまう。できないと思っているのは、単にそのやり方を知っているか、知らないかではないか？いわば、今の車は、モニターを見ていれば、車の車庫入れが簡単にできるが、それを知らないとサイドミラー、ルームミラーを駆使して苦労して車庫入れをするように。

米国で一部の高度なAIモデルの公開範囲が制限されたというニュースである。Webブラウザのご先祖様であるNetscape Navigatorなどかつて暗号技術が戦略物資として扱われていた時代があり、古い方なら、同じブラウザでもアメリカ国内版と海外版で暗号化機能が異なっていたことを覚えているかもしれない。ある意味、こういうテクノロジーは昔から戦略物資として扱われてきた経緯があるから、驚かない。例えば、今では普通に使われている位置情報のGPS、元々は戦略物資で、運用開始時は、軍用と一般では精度が全然違っていた。

閑話休題

以下、Mythosの内容は、たとえばモデルが何を見つけた、何ができるなどは一切記載していない。あくまでもそう言ったモデルがあった場合、どうすれば実際に使えるかという視点で書いてある。

そんな話を見ていて、「AIにセキュリティ調査をさせると実際どうなるのだろうか」と思い、学習用の脆弱性演習環境である OWASP Juice Shop を使って試してみることにした。もちろん、実際のシステムや第三者の環境に対して行うものではない。あくまでも学習用途の閉じた環境での実験である。

これをパブリックのAIにさせると、セキュリティのガードレールがかかって回答を拒否されることがある。なので、ローカルLLMの出番となる。

実際に試してみると、Open WebUIには意外と便利な機能がある。

一つは Open Terminal である。

これは Open WebUI からターミナルを利用できる機能であり、必要なツールを使って調査や情報収集を進めることができる。最近話題の Agent 系ツールのようにデスクトップ全体を操作するわけではないが、ターミナルベースの作業であればかなりのことが可能である。このターミナルのイメージには、ブラウザなども別途インストールしてある。また、このターミナルを使うには、必ずモデル自体もツールの利用をサポートしている必要がある。

これで、すべてOK、いけると思ってやってみたが、調査くらいであれば全然問題なくできるが、深い調査、演習の自動実行をさせていくと、コンテキストサイズ64Kでも足りず、128Kでも足りず。進捗をみると256Kでも全然たりない。

そこで、次に活用したのが Note 機能である。

長時間にわたる調査では、どんなに大きなコンテキストを持つモデルであっても、最終的には過去の情報を抱えきれなくなる。そこで調査の途中経過や確認済みの事実を Note にまとめておき、必要に応じて新しいチャットへ引き継ぐことができる。

人間の調査でも引き継ぎ資料や作業メモが重要であるが、AIでも事情は同じである。

今回の実験では、Juice Shop の調査・観察を進めながら、確認した内容を随時 Note に整理させてみた。すると、単に質問に答えるチャットボットというよりも、「調査ノートを書きながら作業を進めるアシスタント」に近い振る舞いになる。

AIそのものの性能も重要である。しかし、それ以上に重要なのは、

どのようなツールを与えるか
どのように記録を残すか
どのように作業を引き継ぐか

であると感じた。

大規模なコンテキスト長を持つモデルが登場しているとはいえ、長期間にわたる調査や分析作業では、依然としてコンテキストには限界がある。そのため、必要な情報を外部へ整理し、次のセッションへ引き継ぐ仕組みの方が、実運用では重要になる場面も少なくない。

今回試してみて感じたのは、AI時代になっても「調査」という仕事そのものは消えないということである。ただし、人間がすべてを覚えて実行する時代から、人間が調査の方針を決め、AIが実作業を行い、その結果を記録して引き継ぐ時代へ変わりつつあるのかもしれない。少なくとも今回の実験では、モデルサイズやコンテキスト長よりも、

道具を与えること
記録を残すこと
作業を引き継ぐこと

の方が重要に見えた。

AIの能力ばかりが注目されがちである。しかし実際には、AI単体よりも「AIにどのような道具を持たせ、どのように記録を残させるか」の方が、今後は重要になっていくのかもしれない。

実行方法や結果などの詳細については触れないが、少なくとも Open WebUI の Open Terminal と Note の組み合わせだけでも、「AIに長時間の調査作業を継続させる」という観点では非常に興味深い結果が得られた。

もしかすると今後重要になるのは、モデルそのものの性能競争ではなく、

AIにどのような道具を持たせるか
AIに何を記録させるか
AIからどのように知識を引き継ぐか

なのかもしれない。ちなみに、この作業、Docker環境のOpen WebUIだけではなく、WindowsやMACでも動く、Open WebUI Desktop環境でもできる。

実際にやったところ。

何回かのトライのうちの１つ。

まず、初回でコンテキストサイズがもう100K超えしている。結果としては1回で全然終わらず。多分、何回もチャットを新規作成して回さないと終わらない。なので、メモリ的な動きができるノートが必要。

ノートの内容

まだプロンプトの改善余地がある。

それにしても、Open WebUIでも実は大変なことがあった。最初Defaultモードで行けるかと思ったら、Terminalはデフォルトモードは完全に抑止されていて動かなかった。本当はAgentで回さず、Defaultモード＋Thinking ONで回したかったのだが、これは、NativeモードでThinking ONで行っている。コンテキストサイズは、EVO-X2なので、毎回ガンガン盛ってみた。実は、モデルがサポートしていて、メモリリソースがあるのであれば、チャットの最中でもコンテキストサイズを増やせる。

最後に、激推ししていたAsusのGDX Spark GX10は、いつの間にかに価格が２倍になっていた。もう買うことができない値段。メモリの入手性が幾分改善したといわれているが、DDR5などのメモリはそうじゃないらしい。Agent AIで使われる、Mac Mini、DGX Spark、Strix HaloのMini PCやNASは、１台あたりのメモリの搭載量がデフォルトで大容量なので、メモリの価格や需要の変動がダイレクトに影響しやすい。今、EVO-X2がセールで安くなっているが（それでも自分が買った時より全然高い）、もしかすると、EVO-X2もこの価格で買えるのは、そろそろ終わりなのではと思う。

コメントする コメントをキャンセル

コメントするコメントをキャンセル