OpenAIのLLMが、月額課金なしで手元のMacBookから動く時代になりました。

2025年8月、OpenAIはGPT-2以来となる初のオープンウェイト言語モデル「gpt-oss」シリーズを公開しました。そのうち小型モデル「gpt-oss-20b」は16GBのメモリに収まり、o3-mini相当の推論性能をローカルで発揮します。2026年5月にはコミュニティがTurboQuant 3bit量子化版を公開し、より幅広いMacでの実行が現実的になりました。

この記事でわかること:

  • gpt-oss-20bがo3-miniと比べてどれだけの性能を持つか
  • OllamaとLM Studioを使ったローカル実行のセットアップ手順
  • コミュニティ量子化版(gpt-oss-20b-tq3)でMacの負担をさらに下げる方法
  • どの実行方法をどのユースケースで選ぶべきか

https://github.com/openai/gpt-oss

gpt-oss-20bとは

gpt-ossは、OpenAIがApache 2.0ライセンスで公開したオープンウェイトLLMシリーズです。ラインナップは2種類あります。

  • gpt-oss-120b — 117Bパラメータ(アクティブ5.1B)、80GB GPU 1枚で動作、o4-mini相当の性能
  • gpt-oss-20b — 21Bパラメータ(アクティブ3.6B)、16GB以内で動作、o3-mini相当の性能

どちらもMixture-of-Experts(MoE)アーキテクチャを採用しており、全パラメータのうち推論時に動かすのは一部だけです。gpt-oss-20bであれば、トークンごとに3.6Bのパラメータのみ使うため、21Bという規模でも16GBメモリに収まります。

OpenAIがオープンウェイトのLLMを公開するのはGPT-2以来で、GitHubには公開後9ヶ月で約2万スターが集まっています。

スペックと性能

項目 gpt-oss-20b
総パラメータ数 21B
アクティブパラメータ数 3.6B/トークン
レイヤー数 24
エキスパート数 32(アクティブ4)
コンテキスト長 128K
必要メモリ 16GB以内
ライセンス Apache 2.0

ベンチマークでは、競技数学(AIME 2024・2025)と医療分野(HealthBench)においてo3-miniを上回っています。コーディングや一般的な推論タスクではo3-miniと同等です。

gpt-ossシリーズ共通の特徴として、推論努力を low / medium / high の3段階でシステムプロンプトから切り替えられます。「速度重視なら low、精度重視なら high」と1行書くだけで変更できるため、ユースケースに応じた最適化が簡単です。思考プロセス(Chain-of-Thought)への完全アクセスも可能で、モデルの推論ステップをそのまま確認できます。

OllamaでQuick Start

セットアップが最も簡単な方法はOllamaです。Ollamaをインストールした後、以下の2コマンドを実行するだけです。

ollama pull gpt-oss:20b
ollama run gpt-oss:20b

OllamaはOpenAI互換のHTTP APIも提供するため、既存のツールをそのまま切り替えて使えます。

curl http://localhost:11434/api/chat \
  -d '{
    "model": "gpt-oss:20b",
    "messages": [{"role": "user", "content": "Pythonでフィボナッチ数列を書いてください"}]
  }'

Ollama上ではClaude Code、OpenClaw、Hermes Agentなどへのgpt-oss接続も可能です。

# Claude Codeのモデルとして使う場合
ollama launch claude --model gpt-oss

LM Studioで動かす

GUIベースで管理したい場合はLM Studioが選択肢になります。LM Studioをインストールした後、CLIから以下を実行します。

lms get openai/gpt-oss-20b

GUIからモデルを選択してサーバーを起動すれば、ブラウザやCLIから利用可能になります。

vLLMで本番運用する

LinuxのGPU環境でプロダクション運用する場合はvLLMが推奨されています。gpt-oss専用ビルドが提供されており、以下でインストールできます。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-20b

LinuxとNVIDIA GPU環境向けの手順です。MacとWindowsには対応していません。

コミュニティ量子化版(gpt-oss-20b-tq3)でMacの負担を下げる

2026年5月、コミュニティがTurboQuant 3bit量子化とMLX最適化を組み合わせた派生モデル「gpt-oss-20b-tq3」をHugging Faceで公開しました。元モデルと比べた主な変化は次の通りです。

  • メモリ使用量をさらに削減 — より一般的なApple Silicon MacBookでも動作可能
  • MLXで最適化 — Apple Siliconのユニファイドメモリアーキテクチャを直接活用
  • 131Kコンテキストをサポート — 元モデルの128Kを若干上回る

MLX形式のモデルはOllamaのような中間レイヤーを挟まずApple Siliconに直接最適化されるため、同じハードウェアでも推論速度が向上します。Hugging Faceで gpt-oss-20b-tq3 または gpt-oss mlx で検索すると見つかります。

どの実行方法を選ぶか

状況 推奨
とりあえず試したい Ollama
GUIで管理したい LM Studio
既存ツール(Claude Code等)に接続したい Ollama
Macのメモリを節約したい gpt-oss-20b-tq3(MLX量子化版)
LinuxサーバーやGPUで本番運用 vLLM

Apache 2.0ライセンスで商用利用できる

gpt-ossはApache 2.0ライセンスで公開されています。コピーレフト制限がなく特許リスクも低いため、企業が自社インフラへ組み込んだりプロダクトに組み合わせたりする際の障壁が小さいです。

OpenAIはすでにAI Sweden・Orange・Snowflakeなどのパートナーと連携し、自社データセットでのファインチューニングやオンプレミス展開の事例を積み上げています。ファインチューニングの手順はOpenAI Cookbookで公開されており、公式の強化学習ファインチューニング例もGitHubリポジトリから参照できます。

ローカルでo3-mini相当の推論モデルを動かしたい場合、今のところgpt-oss-20bは現実的な選択肢の一つです。