METR AI快讯列表

时间	详情
2026-06-03 18:10	Claude Mythos达成3小时METR里程碑据emollick与FRI，Mythos达成3时6分的METR 80%任务时域。原文链接
2026-05-14 04:29	METR与AISI指示AI加速拐点据@emollick称，METR与英国AISI评估显示AI已越过拐点并加速。原文链接
2026-05-09 01:32	Claude Mythos评估达16小时窗口据@emollick称，METR评估Claude Mythos任务中位时长16小时，处于可测上限。原文链接
2026-04-05 22:01	最新分析：将上下文扩展至1000万令牌，使Codex网络安全自主工作量提升3倍据Ethan Mollick在X平台披露，将模型上下文从300万提升到1000万令牌，使Codex在网络安全任务中的独立工作时长从3.1小时提升到10.5小时，显示超长上下文显著增强代理型工具链吞吐（来源：Ethan Mollick，2026年4月5日X贴文）。据其对METR时间视界分析的独立扩展，在进攻性网络安全领域观测到能力翻倍时间为5.7个月，前沿模型在需10.5小时人类专家投入的任务上达到50%的成功率（来源：Ethan Mollick，引用METR方法）。根据METR既有研究，以达标用时衡量模型进步具有稳健性；该网络安全领域数据表明，具备1000万令牌上下文的代理更易实现端到端流程扩展（来源：METR报告；Mollick分析）。对企业而言，这带来可即刻落地的机会，包括自主红队助手、持续漏洞研究流水线与长上下文代码审计服务，前提是获得1000万令牌上下文与完善治理措施（来源：Ethan Mollick；METR）。原文链接
2026-04-03 16:01	网络攻防新突破：前沿模型在10.5小时专家任务上达50%成功率，能力每5.7个月翻倍｜深度分析与商机据Ethan Mollick在Twitter表示，一项独立研究将METR著名的时间地平线分析扩展到进攻性网络安全领域，发现模型能力的翻倍时间为5.7个月，且前沿模型在需人类专家10.5小时完成的任务上达到50%成功率。根据Ethan Mollick的报道，该研究基于真实专家耗时数据，结果与METR既有时间尺度一致，显示自动化漏洞发现与利用能力快速提升。依照Ethan Mollick的说明，这为红队即服务、SOC自动化与渗透测试辅助产品带来显著商业机会，同时要求企业加速投入防御性AI，如自动化补丁优先级与持续对抗仿真。企业应据Ethan Mollick的结论，更新风险评估与采购策略，将模型在一年内两次翻倍的节奏纳入安全基线。原文链接
2026-02-24 18:38	最新分析：METR 与 EpochAI 以透明方法树立AI基准新标准，开发者生产力评估迎来更新据 @emollick 称，METR_Evals 与 EpochAIResearch 在AI基准测试上以高度透明与数据开放脱颖而出，清晰呈现评测难点与具体方法。根据 METR_Evals 在2026年2月的X平台更新，早期“开发者因AI工具平均减速20%”的结论已不再适用，最新迹象显示存在加速效应，但因开发者行为变化导致当前结果仍不稳定，研究团队正改进方法以提升可靠性。另据 EpochAIResearch 的公开说明，其同样提供方法与数据以支持可重复与可比的能力追踪。对企业而言，这种透明基准有助于模型采购、治理与ROI评估，并为工具厂商将产品性能对齐真实研发流程带来商机。原文链接
2026-02-23 19:08	最新分析：统一AI基准面板显示METR等多项测试正被快速“跑满” 据Ethan Mollick在X平台表示，Dan Shapiro在Google AI Studio推出的应用将多项AI安全与能力基准（不止METR）整合到同一面板，显示主流模型正快速“跑满”各类测试（来源：Ethan Mollick，附aistudio.google.com应用链接）。据Dan Shapiro介绍，应用内提供基准来源与细节，可直观对比模型进展，强调在软件领域出现“硬起飞”迹象时，传统静态基准易被饱和。对企业而言，这一聚合视图可用于追踪模型能力趋势、优化内部评测流程，并指引投入更难的基准、红队测试与动态评测（来源：Shapiro声明与Mollick转述）。原文链接
2026-02-20 22:54	METR长任务分数与主流AI基准高度相关：2026最新分析与商业影响根据Ethan Mollick在X平台的说法，METR长任务分数与多项领先AI基准高度相关，尽管该指标有局限，但仍是衡量整体模型能力的有效代理。依据Mollick的报告，log(METR)与编码、推理及多模态等关键评测之间保持强相关，这为企业在模型选型与治理中提供统一的高层筛选指标。依照Mollick的结论，将METR与领域专项基准结合，可在智能体、代码生成与工具调用等应用中降低上线风险并提升评估效率。原文链接
2026-02-20 21:09	Claude Opus 4.6基准突破：14.5小时自主编码50%成功率—METR任务集饱和与123天能力倍增分析据God of Prompt在X平台引用METR Evals称，Claude Opus 4.6在软件任务上的50%时间视野约为14.5小时，但METR表示其现有任务集已接近饱和，测量极其嘈杂，可能低估模型真实能力（据METR Evals）。据METR Evals，模型在真实工程任务上的能力倍增时间约为123天，这意味着从“写邮件辅助”到“接管开发流水线”的转变正快速压缩。根据God of Prompt的报道，针对Opus 4.6的提示架构与“Claude精通指南”已更新，建议团队立即升级评测基准、优化长时自主运行策略，并重新设计工作流以捕获新增性能与商业机会。原文链接
2026-02-20 20:49	METR最新报告：AI软件任务时间跨度急剧缩短—2026加速分析据The Rundown AI报道，METR最新基准数据显示，前沿模型在可完成的软件工程任务时间跨度上快速缩短，体现出代码工作流自主性显著增强。根据METR的评估，顶级模型以更少人工干预处理更长链路的任务，接近在生产环境中实现自动化问题分流、多文件重构与集成测试编写。据The Rundown AI称，该“近乎垂直”的曲线来自工具调用、代码执行与仓库级上下文的叠加收益，METR将其归因于计划与错误恢复能力提升，典型模型包括Claude与GPT系列。根据METR，商业影响包括功能交付周期缩短、通过自动化测试生成降低QA成本，以及面向持续代码维护与迁移的AI开发平台新机遇。原文链接
2026-02-05 06:15	GPT5.2突破：最新METR评测在长周期任务中表现领先据Greg Brockman在推特上透露，GPT5.2在最新METR评测中取得了业界领先的成绩，特别是在处理长周期任务方面表现突出。Noam Brown指出，线性尺度和80%成功率的图表显示GPT5.2显著优于以往模型，标志着OpenAI在强化大型语言模型长程推理能力方面取得重大突破。原文链接

2026-06-03
18:10

Claude Mythos达成3小时METR里程碑

据emollick与FRI，Mythos达成3时6分的METR 80%任务时域。

原文链接

2026-05-14
04:29

METR与AISI指示AI加速拐点

据@emollick称，METR与英国AISI评估显示AI已越过拐点并加速。

原文链接

2026-05-09
01:32

Claude Mythos评估达16小时窗口

据@emollick称，METR评估Claude Mythos任务中位时长16小时，处于可测上限。

原文链接

2026-04-05
22:01

最新分析：将上下文扩展至1000万令牌，使Codex网络安全自主工作量提升3倍

据Ethan Mollick在X平台披露，将模型上下文从300万提升到1000万令牌，使Codex在网络安全任务中的独立工作时长从3.1小时提升到10.5小时，显示超长上下文显著增强代理型工具链吞吐（来源：Ethan Mollick，2026年4月5日X贴文）。据其对METR时间视界分析的独立扩展，在进攻性网络安全领域观测到能力翻倍时间为5.7个月，前沿模型在需10.5小时人类专家投入的任务上达到50%的成功率（来源：Ethan Mollick，引用METR方法）。根据METR既有研究，以达标用时衡量模型进步具有稳健性；该网络安全领域数据表明，具备1000万令牌上下文的代理更易实现端到端流程扩展（来源：METR报告；Mollick分析）。对企业而言，这带来可即刻落地的机会，包括自主红队助手、持续漏洞研究流水线与长上下文代码审计服务，前提是获得1000万令牌上下文与完善治理措施（来源：Ethan Mollick；METR）。

原文链接

2026-04-03
16:01

网络攻防新突破：前沿模型在10.5小时专家任务上达50%成功率，能力每5.7个月翻倍｜深度分析与商机

据Ethan Mollick在Twitter表示，一项独立研究将METR著名的时间地平线分析扩展到进攻性网络安全领域，发现模型能力的翻倍时间为5.7个月，且前沿模型在需人类专家10.5小时完成的任务上达到50%成功率。根据Ethan Mollick的报道，该研究基于真实专家耗时数据，结果与METR既有时间尺度一致，显示自动化漏洞发现与利用能力快速提升。依照Ethan Mollick的说明，这为红队即服务、SOC自动化与渗透测试辅助产品带来显著商业机会，同时要求企业加速投入防御性AI，如自动化补丁优先级与持续对抗仿真。企业应据Ethan Mollick的结论，更新风险评估与采购策略，将模型在一年内两次翻倍的节奏纳入安全基线。

原文链接

2026-02-24
18:38

据 @emollick 称，METR_Evals 与 EpochAIResearch 在AI基准测试上以高度透明与数据开放脱颖而出，清晰呈现评测难点与具体方法。根据 METR_Evals 在2026年2月的X平台更新，早期“开发者因AI工具平均减速20%”的结论已不再适用，最新迹象显示存在加速效应，但因开发者行为变化导致当前结果仍不稳定，研究团队正改进方法以提升可靠性。另据 EpochAIResearch 的公开说明，其同样提供方法与数据以支持可重复与可比的能力追踪。对企业而言，这种透明基准有助于模型采购、治理与ROI评估，并为工具厂商将产品性能对齐真实研发流程带来商机。

原文链接

2026-02-23
19:08

最新分析：统一AI基准面板显示METR等多项测试正被快速“跑满”

据Ethan Mollick在X平台表示，Dan Shapiro在Google AI Studio推出的应用将多项AI安全与能力基准（不止METR）整合到同一面板，显示主流模型正快速“跑满”各类测试（来源：Ethan Mollick，附aistudio.google.com应用链接）。据Dan Shapiro介绍，应用内提供基准来源与细节，可直观对比模型进展，强调在软件领域出现“硬起飞”迹象时，传统静态基准易被饱和。对企业而言，这一聚合视图可用于追踪模型能力趋势、优化内部评测流程，并指引投入更难的基准、红队测试与动态评测（来源：Shapiro声明与Mollick转述）。

原文链接

2026-02-20
22:54

METR长任务分数与主流AI基准高度相关：2026最新分析与商业影响

根据Ethan Mollick在X平台的说法，METR长任务分数与多项领先AI基准高度相关，尽管该指标有局限，但仍是衡量整体模型能力的有效代理。依据Mollick的报告，log(METR)与编码、推理及多模态等关键评测之间保持强相关，这为企业在模型选型与治理中提供统一的高层筛选指标。依照Mollick的结论，将METR与领域专项基准结合，可在智能体、代码生成与工具调用等应用中降低上线风险并提升评估效率。

原文链接

2026-02-20
21:09

Claude Opus 4.6基准突破：14.5小时自主编码50%成功率—METR任务集饱和与123天能力倍增分析

据God of Prompt在X平台引用METR Evals称，Claude Opus 4.6在软件任务上的50%时间视野约为14.5小时，但METR表示其现有任务集已接近饱和，测量极其嘈杂，可能低估模型真实能力（据METR Evals）。据METR Evals，模型在真实工程任务上的能力倍增时间约为123天，这意味着从“写邮件辅助”到“接管开发流水线”的转变正快速压缩。根据God of Prompt的报道，针对Opus 4.6的提示架构与“Claude精通指南”已更新，建议团队立即升级评测基准、优化长时自主运行策略，并重新设计工作流以捕获新增性能与商业机会。

原文链接

2026-02-20
20:49

METR最新报告：AI软件任务时间跨度急剧缩短—2026加速分析

据The Rundown AI报道，METR最新基准数据显示，前沿模型在可完成的软件工程任务时间跨度上快速缩短，体现出代码工作流自主性显著增强。根据METR的评估，顶级模型以更少人工干预处理更长链路的任务，接近在生产环境中实现自动化问题分流、多文件重构与集成测试编写。据The Rundown AI称，该“近乎垂直”的曲线来自工具调用、代码执行与仓库级上下文的叠加收益，METR将其归因于计划与错误恢复能力提升，典型模型包括Claude与GPT系列。根据METR，商业影响包括功能交付周期缩短、通过自动化测试生成降低QA成本，以及面向持续代码维护与迁移的AI开发平台新机遇。

原文链接

2026-02-05
06:15

GPT5.2突破：最新METR评测在长周期任务中表现领先

据Greg Brockman在推特上透露，GPT5.2在最新METR评测中取得了业界领先的成绩，特别是在处理长周期任务方面表现突出。Noam Brown指出，线性尺度和80%成功率的图表显示GPT5.2显著优于以往模型，标志着OpenAI在强化大型语言模型长程推理能力方面取得重大突破。

原文链接

AI 快讯列表关于 METR