近年はソフトウェア開発にコーディングAIを使用する開発者が一般的になっており、コーディングAIの性能を測るさまざまなベンチマークが存在します。そんなコーディングAI向けベンチマークの欠点を改善したという新たなベンチマーク「DeepSWE」が登場しました。
Claudeの開発元であるAnthropicが、「インフラストラクチャーの構成により、エージェントコーディングのベンチマークが数パーセントポイント変動する」と報告しています。 この差は人気のAIモデルのベンチマークリーダーボード上の差に影響しているそうです。
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する