#SWE-bench

4 件の記事

アプリ・サービス

モデルが同じでも結果が違う AIコーディングエージェント評価の新指標

AIコーディングツールを選ぶとき、モデルのスペックだけを比べ…

ProgramBench：全LLMが0%になった理由と課題の本質

全LLMがスコア0%——その事実が、コード生成AIの現在地を…

Qwen3.6-35B-A3B 3Bコストで73.4%を出すMoEコーディングモデル

ローカルで動くオープンソースモデルが、クラウドAPIの精度に…

Qwen3.6-27B　コーディング性能で397Bを超えた理由

27Bのモデルが、その約15倍の規模を持つ397Bモデルを全…