SWE基准 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 SWE基准

时间 详情
2026-04-09
18:28
Claude Sonnet 搭配 Opus 顾问在 SWE-bench 多语种提升2.7分且成本降11.9%:最新评测分析

据 @claudeai 在推特公布的信息,Sonnet 与 Opus 顾问协作在 SWE-bench 多语种评测中比分单独 Sonnet 提高2.7个百分点,同时每个任务成本下降11.9%。据该推文报道,这种“顾问式”编排在多语代码生成与修复场景中实现了更高通过率与更低开销。对AI产品团队而言,该结果表明可采用“Sonnet主推理、Opus择机指导”的路由策略,在保持可控成本的同时提升多语言软件工程基准表现。

2026-02-27
12:10
MiniMax M2.5 超越 Opus 4.6:SWE‑Bench Verified 80.2%,速度提升3倍,每小时仅$1 的AI编码基准分析

据 X 平台用户 God of Prompt 表示,MiniMax M2.5 在 SWE‑Bench Verified 基准上取得 80.2% 成绩,执行速度约快 3 倍,并以每小时 $1 的统一价格提供,同时仅启用 100 亿参数,被定位为最小的 Tier‑1 级编码模型。该来源称,这些指标带来更低时延与更优推理成本,使 24/7 持续运行的自主编码代理与持续集成机器人在预算内可行。基于同一来源的信息,高准确率与小激活参数量的组合提升效率与性价比,可为部署代码助手、测试修复机器人与维护代理的团队带来更高投资回报。

2026-02-02
16:46
Claude Sonnet 5对比Opus 4.5:最新泄露显示价格更低、速度更快与自主编码代理

据Twitter用户@godofprompt透露,Vertex AI在错误日志中泄露了Claude Sonnet 5的最新信息。该模型据称比Opus 4.5便宜50%以上,并保持100万上下文窗口,同时运行速度更快。值得关注的是,Claude Sonnet 5支持通过终端生成并行子代理,并在SWE-bench基准测试中达到80.9%。最引人注目的功能是“开发团队模式”,用户仅需简要说明,即可由代理自主构建完整功能。尽管消息尚未证实,但若属实,将重塑AI编码代理市场,为企业自动化提供全新商机。