OpenAI 发布 o3 模型,成为首个突破 ARC-AGI 测试的模型

OpenAI 发布了全新的 o3 模型,该推理模型打破了记录。

o3 模型

就在不久之前也就是 OpenAI 的第十二天发布会上发布了全新的推理模型 o3 和 o3-mini,这个模型创造了记录成为首个突破 ARC-AGI 基准测试的 AI 模型,得分高达 87.5%。

ARC-AGI测试.png

什么是 ARC-AGI 呢?ARC-AGI 是一个用于评估人工智能抽象推理能力的基准测试。其包含一系列的抽象视觉推理任务。每个任务都提供几个输入和对应的输出网格,受测者需要根据这些范例推断出规则,并产生正确的输出网格。

ARC-AGI 的门槛设置为 85%,接近人类正常水平,OpenAI o1 模型得分仅 32%,由此可见 o3 模型的得分是多么大的突破了。对了 OpenAI 取名从 o1 直接到 o3,跳过 o2 的原因可能是怕和英国电信服务提供商 O2 可能产生版权冲突,所以直接跳过了这个版本。

除了 ARC-AGI 基准测试,o3 还在 SWE-bench Verified(一种软件工程考试)中的得分为 71.7%,也就是编写一个软件需要快速准确没有 Bug。在 Codeforces(编码竞赛平台)中得分 2727,这个得分在榜单上位于 175 名,排名非常高。

o3测试-1.png

在 AIME 2024(数学竞赛)中的得分为 96.7,得分明显高于 o1 的成绩,在 GPQA Diamond(博士级科学考试)中的得分为 87.7。

o3测试-2.png

EpochAI Frontier Math 基准测试中,OpenAI o3 的准确率为 25.2,之前的最佳分数仅为 2.0。

o3测试-3.png

但是目前并不清楚 o3 模型将在什么时候发布,除了 o3 模型之外,OpenAI 还训练了三个版本的小尺寸 AI 模型也就是 o3-mini,该模型预计将于明年一月份发布,但是可能会让会员先使用。

o3-mini.png

o3-mini-2.png

结论

以上就是有关 o3 模型的一些能力测试结果,从这些测试结果中看,o3 模型可以算是非常大的突破,期待这款模型正式发布。

本文编辑:@ 小小辉

©本文著作权归电手所有,未经电手许可,不得转载使用。