有料のフロンティアモデルに匹敵する性能を、無料で試せる時代が来ました。

この記事では、中国のNex AGIが公開したエージェント向けLLM「Nex-N2-Pro」の技術仕様とベンチマーク結果、無料で使う方法を整理します。

この記事でわかること

  • Nex-N2-Proがどのベンチマークで有料モデルを上回ったか
  • Qwen 3.5ベースのMoE構成と262Kコンテキストの意味
  • OpenRouterやHugging Faceから無料で試す手順

コーディング性能でGPT-5.5を上回った新モデル

Nex AGIは2026年6月、次世代エージェントモデル「Nex-N2」をオープンウェイトで公開しました。上位版のNex-N2-Proは、Alibabaの大規模言語モデル「Qwen 3.5」シリーズのQwen3.5-397B-A17Bをベースにポストトレーニングされています。

モデル形式はMoE(Mixture of Experts、複数の専門サブモデルを組み合わせる方式)です。総パラメータ数は3970億、推論時に活性化するのは170億にとどまります。推論コストは170億パラメータ級の密なモデルに近い水準で、性能はフロンティアクラスを狙った設計です。

公式ベンチマーク表によると、Nex-N2-Proはコーディング系の評価で有料モデルを上回る結果を出しています。SWE-Bench Proでは58.8点を記録し、GPT-5.5の58.6点をわずかに上回りました。ターミナル操作の実タスクを測るTerminal-Bench 2.1では75.3点で、Claude Opus 4.7の69.7点を大きく引き離しています。

一方、全ベンチマークで有料モデルを凌駕しているわけではありません。GDPval(長期タスクの計画力を測る指標)では1585点で、GPT-5.5の1769点やOpus 4.7の1753点には届いていません。コーディングとエージェント実行に強みを持つモデルと捉えるのが正確です。

Agentic Thinkingが支える設計思想

Nex-N2の中核は「Agentic Thinking」と呼ばれるフレームワークです。推論・ツール呼び出し・環境での実行を別々の機能として扱わず、要件理解から計画、実装、デバッグ、再試行までを一つのループにまとめます。

この枠組みは2つの要素で構成されます。Adaptive Thinkingはタスクの難易度に応じて推論の深さを自動調整し、単純な操作は素早く、重要な判断ではじっくり考えます。Coherent Thinkingは、一般推論とエージェントタスクのあいだで一貫した推論パラダイムを維持し、能力の横展開を支えます。

テキスト入力に加え、画像入力や関数呼び出し、構造化出力にも対応しています。コーディング、深いリサーチ、ツール連携、ターミナル操作といった実務シナリオを想定した設計です。

262Kコンテキストが変える使い方

Nex-N2-Proのコンテキストウィンドウは262,144トークン(約262K)です。X上の話題でも「260Kトークン」と紹介されていますが、公式仕様は262Kです。大規模なコードベースを分割せずに丸ごと読み込めるため、リポジトリ全体の解析や長期のエージェントタスクに向いています。

最大出力トークン数は256Kに設定されています。長文の生成や、複数ステップにわたるエージェントの作業ログを一度に扱う用途を想定した設計です。

無料で試す方法

https://openrouter.ai/nex-agi/nex-n2-pro:free

OpenRouterではnex-agi/nex-n2-pro:freeとして無料提供されています。APIはOpenAI互換のため、既存のクライアントやエージェントフレームワークにモデル名を差し替えるだけで組み込めます。Julian Goldie氏の投稿でも「AIエージェントに直接組み込める」と紹介されており、APIキーを別途契約しなくても試せる点が開発者にとっての大きなメリットです。

https://huggingface.co/nex-agi/Nex-N2-Pro

ウェイトはHugging FaceとModelScopeでApache 2.0ライセンスのもと公開されています。商用利用も可能です。軽量版のNex-N2-mini(Qwen3.5-35B-A3B-Baseベース、総パラメータ350億・活性化30億)も同時にリリースされており、レイテンシと品質のトレードオフに応じて選べます。

ローカル実行のハードル

https://github.com/nex-agi/Nex-N2

オープンウェイトとはいえ、Nex-N2-Proのローカル実行はハードルが高いです。公式READMEでは、2台の8×H100サーバー(テンソル並列16)でのマルチノード構成を例示しています。推奨の推論エンジンはNex AGI製のsglangフォーク(nexagi/sglang:v0.5.12)で、--reasoning-parser qwen3--tool-call-parser qwen3_coderの指定が必要です。

多くの個人開発者にとっては、OpenRouterやSiliconFlowのサーバーレスAPI経由が現実的な選択肢です。GitHub READMEには6月9日から2週間の無料キャンペーンへのリンクも掲載されています。

有料モデルとの位置づけ

Nex-N2-Proは「無料だから使う」だけのモデルではありません。SWE-Bench Verifiedでは80.8点と、GPT-5.5の82.9点やOpus 4.7の87.6点には及ばないものの、DeepSeek-V4-Proの80.6点と同等の水準です。エージェント系ベンチマークのBrowseCompでは83.7点で、GPT-5.5の84.4点に迫る結果です。

コストを抑えながらエージェント開発を進めたいチームにとって、まず無料APIでプロトタイプを組み、必要に応じてウェイトを自前ホストするという二段構えが現実的です。ベンチマークはあくまで公式が公開した数値であり、実際のタスクでの体感は用途によって異なります。導入前に自分のワークフローで検証する価値は大きいでしょう。