OpenAI 发布 o3 模型，成为首个突破 ARC-AGI 测试的模型

来源：电手

编辑：小小辉

2024-12-23 10:02

OpenAI 发布了全新的 o3 模型，该推理模型打破了记录。

o3 模型

就在不久之前也就是 OpenAI 的第十二天发布会上发布了全新的推理模型 o3 和 o3-mini，这个模型创造了记录成为首个突破 ARC-AGI 基准测试的 AI 模型，得分高达 87.5%。

什么是 ARC-AGI 呢？ARC-AGI 是一个用于评估人工智能抽象推理能力的基准测试。其包含一系列的抽象视觉推理任务。每个任务都提供几个输入和对应的输出网格，受测者需要根据这些范例推断出规则，并产生正确的输出网格。

ARC-AGI 的门槛设置为 85%，接近人类正常水平，OpenAI o1 模型得分仅 32%，由此可见 o3 模型的得分是多么大的突破了。对了 OpenAI 取名从 o1 直接到 o3，跳过 o2 的原因可能是怕和英国电信服务提供商 O2 可能产生版权冲突，所以直接跳过了这个版本。

除了 ARC-AGI 基准测试，o3 还在 SWE-bench Verified（一种软件工程考试）中的得分为 71.7%，也就是编写一个软件需要快速准确没有 Bug。在 Codeforces（编码竞赛平台）中得分 2727，这个得分在榜单上位于 175 名，排名非常高。

在 AIME 2024（数学竞赛）中的得分为 96.7，得分明显高于 o1 的成绩，在 GPQA Diamond（博士级科学考试）中的得分为 87.7。

EpochAI Frontier Math 基准测试中，OpenAI o3 的准确率为 25.2，之前的最佳分数仅为 2.0。

但是目前并不清楚 o3 模型将在什么时候发布，除了 o3 模型之外，OpenAI 还训练了三个版本的小尺寸 AI 模型也就是 o3-mini，该模型预计将于明年一月份发布，但是可能会让会员先使用。

以上就是有关 o3 模型的一些能力测试结果，从这些测试结果中看，o3 模型可以算是非常大的突破，期待这款模型正式发布。

本文编辑：@ 小小辉