METR AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 METR

时间 详情
2026-04-05
22:01
最新分析:将上下文扩展至1000万令牌,使Codex网络安全自主工作量提升3倍

据Ethan Mollick在X平台披露,将模型上下文从300万提升到1000万令牌,使Codex在网络安全任务中的独立工作时长从3.1小时提升到10.5小时,显示超长上下文显著增强代理型工具链吞吐(来源:Ethan Mollick,2026年4月5日X贴文)。据其对METR时间视界分析的独立扩展,在进攻性网络安全领域观测到能力翻倍时间为5.7个月,前沿模型在需10.5小时人类专家投入的任务上达到50%的成功率(来源:Ethan Mollick,引用METR方法)。根据METR既有研究,以达标用时衡量模型进步具有稳健性;该网络安全领域数据表明,具备1000万令牌上下文的代理更易实现端到端流程扩展(来源:METR报告;Mollick分析)。对企业而言,这带来可即刻落地的机会,包括自主红队助手、持续漏洞研究流水线与长上下文代码审计服务,前提是获得1000万令牌上下文与完善治理措施(来源:Ethan Mollick;METR)。

2026-04-03
16:01
网络攻防新突破:前沿模型在10.5小时专家任务上达50%成功率,能力每5.7个月翻倍|深度分析与商机

据Ethan Mollick在Twitter表示,一项独立研究将METR著名的时间地平线分析扩展到进攻性网络安全领域,发现模型能力的翻倍时间为5.7个月,且前沿模型在需人类专家10.5小时完成的任务上达到50%成功率。根据Ethan Mollick的报道,该研究基于真实专家耗时数据,结果与METR既有时间尺度一致,显示自动化漏洞发现与利用能力快速提升。依照Ethan Mollick的说明,这为红队即服务、SOC自动化与渗透测试辅助产品带来显著商业机会,同时要求企业加速投入防御性AI,如自动化补丁优先级与持续对抗仿真。企业应据Ethan Mollick的结论,更新风险评估与采购策略,将模型在一年内两次翻倍的节奏纳入安全基线。

2026-02-24
18:38
最新分析:METR 与 EpochAI 以透明方法树立AI基准新标准,开发者生产力评估迎来更新

据 @emollick 称,METR_Evals 与 EpochAIResearch 在AI基准测试上以高度透明与数据开放脱颖而出,清晰呈现评测难点与具体方法。根据 METR_Evals 在2026年2月的X平台更新,早期“开发者因AI工具平均减速20%”的结论已不再适用,最新迹象显示存在加速效应,但因开发者行为变化导致当前结果仍不稳定,研究团队正改进方法以提升可靠性。另据 EpochAIResearch 的公开说明,其同样提供方法与数据以支持可重复与可比的能力追踪。对企业而言,这种透明基准有助于模型采购、治理与ROI评估,并为工具厂商将产品性能对齐真实研发流程带来商机。

2026-02-23
19:08
最新分析:统一AI基准面板显示METR等多项测试正被快速“跑满”

据Ethan Mollick在X平台表示,Dan Shapiro在Google AI Studio推出的应用将多项AI安全与能力基准(不止METR)整合到同一面板,显示主流模型正快速“跑满”各类测试(来源:Ethan Mollick,附aistudio.google.com应用链接)。据Dan Shapiro介绍,应用内提供基准来源与细节,可直观对比模型进展,强调在软件领域出现“硬起飞”迹象时,传统静态基准易被饱和。对企业而言,这一聚合视图可用于追踪模型能力趋势、优化内部评测流程,并指引投入更难的基准、红队测试与动态评测(来源:Shapiro声明与Mollick转述)。

2026-02-20
22:54
METR长任务分数与主流AI基准高度相关:2026最新分析与商业影响

根据Ethan Mollick在X平台的说法,METR长任务分数与多项领先AI基准高度相关,尽管该指标有局限,但仍是衡量整体模型能力的有效代理。依据Mollick的报告,log(METR)与编码、推理及多模态等关键评测之间保持强相关,这为企业在模型选型与治理中提供统一的高层筛选指标。依照Mollick的结论,将METR与领域专项基准结合,可在智能体、代码生成与工具调用等应用中降低上线风险并提升评估效率。

2026-02-20
21:09
Claude Opus 4.6基准突破:14.5小时自主编码50%成功率—METR任务集饱和与123天能力倍增分析

据God of Prompt在X平台引用METR Evals称,Claude Opus 4.6在软件任务上的50%时间视野约为14.5小时,但METR表示其现有任务集已接近饱和,测量极其嘈杂,可能低估模型真实能力(据METR Evals)。据METR Evals,模型在真实工程任务上的能力倍增时间约为123天,这意味着从“写邮件辅助”到“接管开发流水线”的转变正快速压缩。根据God of Prompt的报道,针对Opus 4.6的提示架构与“Claude精通指南”已更新,建议团队立即升级评测基准、优化长时自主运行策略,并重新设计工作流以捕获新增性能与商业机会。

2026-02-20
20:49
METR最新报告:AI软件任务时间跨度急剧缩短—2026加速分析

据The Rundown AI报道,METR最新基准数据显示,前沿模型在可完成的软件工程任务时间跨度上快速缩短,体现出代码工作流自主性显著增强。根据METR的评估,顶级模型以更少人工干预处理更长链路的任务,接近在生产环境中实现自动化问题分流、多文件重构与集成测试编写。据The Rundown AI称,该“近乎垂直”的曲线来自工具调用、代码执行与仓库级上下文的叠加收益,METR将其归因于计划与错误恢复能力提升,典型模型包括Claude与GPT系列。根据METR,商业影响包括功能交付周期缩短、通过自动化测试生成降低QA成本,以及面向持续代码维护与迁移的AI开发平台新机遇。

2026-02-05
06:15
GPT5.2突破:最新METR评测在长周期任务中表现领先

据Greg Brockman在推特上透露,GPT5.2在最新METR评测中取得了业界领先的成绩,特别是在处理长周期任务方面表现突出。Noam Brown指出,线性尺度和80%成功率的图表显示GPT5.2显著优于以往模型,标志着OpenAI在强化大型语言模型长程推理能力方面取得重大突破。