发布日期:2025-04-14 20:49 点击次数:109
AI能像科学家一样搞科研,甚至复现顶尖论文?你没听错!OpenAI最新推出的PaperBench框架,就是要挑战这个科幻般的场景。他们找来了ICML 2024的20篇优秀论文,让AI智能体从零开始复现,结果会如何呢?这其中究竟隐藏着怎样的秘密?
有人说,这标志着AI科研时代的来临;也有人质疑,这不过是AI的又一次炒作。支持者认为,AI的强大算力和学习能力,能加速科研进程,甚至发现人类难以察觉的规律。反对者则认为,科研的精髓在于创新和洞察力,这是AI无法复制的。双方争执不下,火药味十足。更让人好奇的是,这些AI智能体究竟是如何复现论文的?它们的成功率又有多少?
PaperBench的运作方式,就像一个严格的考试。AI智能体拿到论文后,需要理解核心思想,编写代码,运行实验,最后验证结果。为了保证公平,OpenAI还联合论文作者制定了8316个评分标准,细致到每个子任务。这就像把复现过程拆解成无数个小步骤,然后逐一检查。为了更接地气,我们不妨想象一下如果让AI复现“如何制作宫保鸡丁”的论文,它需要先理解宫保鸡丁的定义,然后准备食材,掌握烹饪技巧,最后做出成品并进行口味测试。
实验结果出来了,看似尘埃落定,实则暗流涌动。最强的Claude 3.5 Sonnet只拿到了21%的分数,其他AI更是惨不忍睹。即使是最顶尖的LLM,也远不及人类博士的水平。这似乎给AI科研泼了一盆冷水。难道AI真的无法胜任科研工作吗?反对者的声音再次响起 “看吧,我就说AI不行!” 但事实真的如此吗?
剧情突然反转!OpenAI的研究人员发现,除了Claude 3.5 Sonnet,其他AI都提前交卷了!它们要么觉得自己已经完成了任务,要么遇到了无法解决的问题,就放弃了。这就好比学生考试,还没做完题就交卷了,成绩自然不会好。更令人震惊的是,人类博士的得分高达41.4%!这巨大的差距,让人不禁思考AI与人类的差距究竟在哪里?
表面上,AI的复现能力有限,人类依然占据优势。但新的问题出现了AI为什么提前交卷?是能力不足,还是策略失误?OpenAI的研究人员发现,这些AI缺乏长期规划能力,即使制定了完美的计划,也无法按部就班地执行。这就好比一个旅行者,制定了详细的行程,却因为缺乏耐心和毅力,中途放弃了旅行。这让人不禁担忧如果AI无法克服这个弱点,未来在更复杂的科研任务中,又该如何表现?
OpenAI把PaperBench吹得天花乱坠,又是自主性,又是科研潜力。但结果呢?最强AI才21分,人类轻松41.4分!这简直是公开处刑!所谓的AI科研革命,难道只是一场自娱自乐的表演?我反倒觉得,这恰恰证明了人类智慧的不可替代性!
AI复现论文得分惨淡,这究竟是AI的失败,还是OpenAI的“高级营销”?如果只是为了凸显人类的优越性,那这21%的得分,是不是有点太刻意了?