资讯

具体而言,Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分,领先于先前发布的所有开源模型,并领先于包括 GPT-4.1-mini 在内的多个闭源模型,它比 GPT-4.1-mini 高出 20 ...