当地时间周五,OpenAI在为期12个工作日的新品发布活动的最后一天展示了o1模型的下一代o3,并表示该模型有o3版本和精简版o3-mini。OpenAI CEO山姆·奥尔特曼(Sam Altman)强调了o3在推理、编码能力方面的提升,并表示o3模型不会立即推出,OpenAI会在1月底前正式推出o3 mini,并在之后推出完整版的o3。
山姆·奥尔特曼表示,o3是一个非常聪明的模型。OpenAI总裁Greg Brockman(格雷格·布鲁克曼)表示,公司最新的o3模型取得了突破,o3版本和o3-mini版本正在提供给研究人员进行安全测试。
据OpenAI介绍,公司将在确保新模型的可靠性和安全性后再提供给更广泛的用户使用,OpenAI强调了公司会专注于使AI系统与人类的价值观和社会利益保持一致。在命名方面,OpenAI之所以不起名o2而是起名o3,是因为有英国电信运营商名为O2。
OpenAI在今年9月已推出了o1模型,该模型可深思熟虑后回答问题,可处理需要复杂推理的任务。o1在国际数学奥林匹克竞赛(IMO)的资格考试中得分83%,对比之下,GPT-4o仅正确解决了13%的问题。在此基础上,据OpenAI评估,o3在软件工程、编写代码、掌握人类博士级别科学知识能力等方面强于o1。
据OpenAI给出的SWE-bench Verified代码生成评估基准,在软件工程的能力测评中,o3的准确度得分71.7,超过得分48.9的o1和41.3的o1 preview。在编程网站Codeforces的竞争性代码测评中,o3得分2727,对比之下,o1、o1 preview得分分别为1891和1258。在2024年AIME数学竞赛题目测试中,o3的准确度得分为96.7,超过o1和o1 preview的得分83.3和56.7。在衡量模型在博士级别科学问题上表现的GPQA Diamond测试中,o3得分87.7,超过o1的78和o1 preview的78.3。
而在以100%为最高分的ARC-AGI评估中,o1系列得分在8%~32%之间,o3最低得分75.7%、最高得分87.5%,表现明显好于o1系列。ARC-AGI是用来测试AI模型对困难数学和逻辑问题推理能力的基准测试。ARC Prize 基金会总裁Greg Kamradt表示,能成功击败ARC-AGI的AI系统将代表通往通用人工智能的重要里程碑。OpenAI表示,o3在ARC-AGI评估中获得了破纪录的分数,o3的最高分数也达到了代表人类水平的门槛85%,o3在某些条件下可以接近实现AGI(通用人工智能)。
成本上看,ARC Prize基金会创始人FrançoisChollet则在测试报告中表示,模型通用性需要付出高昂成本,o3 在低计算量模式下完成每个ARC-AGI任务需要 17~20 美元,高计算量模式下完成每个任务需要数千美元,模型的性价比在接下来的几个月和几年里将有所提高。
在OpenAI推出o1系列模型后,OpenAI的一些竞争对手也在部署这种偏重推理的模型。本月早些时候,谷歌发布了旗舰模型Gemini的新版本,该新版本在思考、记忆、计划等方面能力有所提升。业内另外一些企业也在参考o1的长思维链推理路径优化自身的模型,有大模型业内人士向记者表示,这种路径可以降低大模型的错误率,未来也有可能用于解决重大科学问题。