#SWE-bench

4 件の記事

12
5月 2026
アプリ・サービス

モデルが同じでも結果が違う AIコーディングエージェント評価の新指標

AIコーディングツールを選ぶとき、モデルのスペックだけを比べ…

06
5月 2026
AIモデル

ProgramBench:全LLMが0%になった理由と課題の本質

全LLMがスコア0%——その事実が、コード生成AIの現在地を…

05
5月 2026
AIモデル

Qwen3.6-35B-A3B 3Bコストで73.4%を出すMoEコーディングモデル

ローカルで動くオープンソースモデルが、クラウドAPIの精度に…

24
4月 2026
AIモデル

Qwen3.6-27B コーディング性能で397Bを超えた理由

27Bのモデルが、その約15倍の規模を持つ397Bモデルを全…