livlea blog

Live as if you were to die tomorrow. Learn as if you were to live forever. (Mohandas Karamchand Gandhi)

LM Studioを活用したAI処理体験:EVO-X2でのgpt-oss-120bの実行

EVO-X2(128GBモデル)を使って、gpt-oss-120bを動作させてみました。gpt-ossの実行はLM Studioを使っています。EVO-X2とは、ミニPCメーカーのGMKtecが販売しているハイエンドミニPCです。これは特にAI処理や高性能なクリエイティブ作業に特化したモデルとして注目されていて、私もローカルAIやゲーミング用途にも使えるかなと思って2025年の9月ごろに購入しました。EVO-X2の主なスペックは以下の通りです。メモリはGPUにどれだけ割り当てるかを変更することができ、私は128GBのうち、98GBをVRAM(GPUメモリ)に割り当てています。

EVO-X2
項目 詳細
CPU AMD Ryzen™ AI Max+ 395, 16 コア / 32 スレッド
GPU Radeon 8060S グラフィックス
メモリ(RAM) オンボード LPDDR5X(増設不可), 128GB
映像出力 HDMI・DisplayPort・USB4 から出力可能, 最大解像度: 7680×4320 @ 60Hz
ネットワーク WiFi 7: RZ717(MT7925)
Bluetooth Bluetooth 5.4
電源 DC 19.5V, 11.8A (約 230.1W), AC 入力: 100–240V, 50/60Hz, 4.0A
OS Windows 11 Pro


利用したLM Studioのバージョンは0.3.30でした。LLMはopenaiのgpt-oss-120b(GGUF, MXFP4)を使って、Reasoning EffortはLowにして "最新のAIニュースを100本、教えて" とプロンプトを入力したところ、以下のようなスピードで出力できました。

40.37 tok/sec • 4361 tokens • 0.79s to first token

出力結果

そこそこ早くて、ある程度使えるレベルかなと思います。LM Studioの設定は、以下のようにしています。この設定が良いのか、悪いのか・・・。いろいろ試してみて、良いパラメータを探し出したいですね。

gpt-oss-120bの設定


ちなみに、GPUはこんな感じで60GBぐらい使用していました。

GPUのモニタニング


最初のプロンプトの出力は、40 tok/sec程度出ますが、同じChatで何回も質問をしていると、徐々にスピードが低下してきます。5回目の質問では、28 tok/sec程度に下がってきました。Geminiに聞いてみたところ、

LM Studioを使ってチャット中にtok/sec(トークン生成速度)が低下していく主な原因は、LLM(大規模言語モデル)の基本的な動作原理であるコンテキスト・ウィンドウの肥大化です。
📉 tok/secが低下する主な理由ローカルでLLMを実行している場合、チャットが長くなるにつれて生成速度が下がるのは、主に以下の理由が複合的に作用しているためです。


1. コンテキスト・ウィンドウの肥大化と再計算
トランスフォーマーモデル(多くのLLMの基本構造)は、新しいトークン(単語や文字の単位)を生成するたびに、**それまでのチャット履歴全体(コンテキスト・ウィンドウ)**を再度読み込み、計算する必要があります。

  • 最初の応答時: プロンプト(最初の質問)が短いため、処理するトークン数は少ないです。
  • チャットが進むと: ユーザーの過去の入力と、モデルの過去の応答がすべてコンテキストとして蓄積されます。
  • 低下の原因: コンテキストが長くなるほど、モデルが次のトークンを生成するために毎回処理しなければならない情報量が増大します。この再計算にかかる時間が増えるため、結果としてtok/secが徐々に低下します。


2. VRAM(GPUメモリ)の負荷増大
LM StudioでGPUオフロードを設定している場合、モデルとコンテキストデータはVRAM(GPUメモリ)に格納されます。

  • コンテキストの増加: 長いチャット履歴は、GPUのVRAMをより多く消費します。
  • VRAM帯域幅の限界: VRAMが圧迫されると、GPUとシステムのメインメモリ(RAM)間のデータ転送が増えたり、GPUがコンテキスト全体を効率的に処理できなくなったりして、ボトルネックが発生しやすくなります。  


3. ハードウェアと設定の限界
使用しているPCのハードウェアやLM Studioの設定も影響します。

要因 詳細
GPUの性能 VRAM容量や帯域幅が低いと、長いコンテキスト処理で特に速度が落ちやすいです
オフロード設定 モデルの全レイヤーを無理にGPUにオフロードすると、逆に転送のオーバーヘッドが大きくなり、速度が低下する場合があります
Flash Attention 特定のGPUやモデルでは、Flash Attention(高速化技術)をONにしても、必ずしも速度が向上しない場合があります


💡 対策速度低下を軽減するために、以下の対策を試みてください。

  1. 新しいチャットセッションを開始する: 定期的にチャット履歴をリセットし、新しいセッションを開始するのが最も効果的な対策です。
  2. コンテキストの要約: チャットが長くなりすぎたら、モデルに「これまでの会話を要約して」と指示し、その要約を次の新しいチャットセッションの最初のプロンプトとして使用することで、重要な情報を少ないトークンで引き継げます。
  3. モデル設定の見直し: LM Studioの設定で、GPUのオフロードの割合を調整したり、コンテキスト・ウィンドウの最大長を見直したりします。

なるほど、そうなのか。勉強になるなぁ。