Claude3.5首战复现21%顶会论文，人类博士无法取代！

金年会官网直营

热点资讯

新闻动态

你的位置：金年会官网直营 > 新闻动态 > Claude3.5首战复现21%顶会论文，人类博士无法取代！

Claude3.5首战复现21%顶会论文，人类博士无法取代！

发布日期：2025-04-14 20:49 点击次数：110

AI能像科学家一样搞科研，甚至复现顶尖论文？你没听错！OpenAI最新推出的PaperBench框架，就是要挑战这个科幻般的场景。他们找来了ICML 2024的20篇优秀论文，让AI智能体从零开始复现，结果会如何呢？这其中究竟隐藏着怎样的秘密？

有人说，这标志着AI科研时代的来临；也有人质疑，这不过是AI的又一次炒作。支持者认为，AI的强大算力和学习能力，能加速科研进程，甚至发现人类难以察觉的规律。反对者则认为，科研的精髓在于创新和洞察力，这是AI无法复制的。双方争执不下，火药味十足。更让人好奇的是，这些AI智能体究竟是如何复现论文的？它们的成功率又有多少？

PaperBench的运作方式，就像一个严格的考试。AI智能体拿到论文后，需要理解核心思想，编写代码，运行实验，最后验证结果。为了保证公平，OpenAI还联合论文作者制定了8316个评分标准，细致到每个子任务。这就像把复现过程拆解成无数个小步骤，然后逐一检查。为了更接地气，我们不妨想象一下如果让AI复现“如何制作宫保鸡丁”的论文，它需要先理解宫保鸡丁的定义，然后准备食材，掌握烹饪技巧，最后做出成品并进行口味测试。

实验结果出来了，看似尘埃落定，实则暗流涌动。最强的Claude 3.5 Sonnet只拿到了21%的分数，其他AI更是惨不忍睹。即使是最顶尖的LLM，也远不及人类博士的水平。这似乎给AI科研泼了一盆冷水。难道AI真的无法胜任科研工作吗？反对者的声音再次响起 “看吧，我就说AI不行！” 但事实真的如此吗？

剧情突然反转！OpenAI的研究人员发现，除了Claude 3.5 Sonnet，其他AI都提前交卷了！它们要么觉得自己已经完成了任务，要么遇到了无法解决的问题，就放弃了。这就好比学生考试，还没做完题就交卷了，成绩自然不会好。更令人震惊的是，人类博士的得分高达41.4%！这巨大的差距，让人不禁思考AI与人类的差距究竟在哪里？

表面上，AI的复现能力有限，人类依然占据优势。但新的问题出现了AI为什么提前交卷？是能力不足，还是策略失误？OpenAI的研究人员发现，这些AI缺乏长期规划能力，即使制定了完美的计划，也无法按部就班地执行。这就好比一个旅行者，制定了详细的行程，却因为缺乏耐心和毅力，中途放弃了旅行。这让人不禁担忧如果AI无法克服这个弱点，未来在更复杂的科研任务中，又该如何表现？

OpenAI把PaperBench吹得天花乱坠，又是自主性，又是科研潜力。但结果呢？最强AI才21分，人类轻松41.4分！这简直是公开处刑！所谓的AI科研革命，难道只是一场自娱自乐的表演？我反倒觉得，这恰恰证明了人类智慧的不可替代性！

AI复现论文得分惨淡，这究竟是AI的失败，还是OpenAI的“高级营销”？如果只是为了凸显人类的优越性，那这21%的得分，是不是有点太刻意了？

上一篇：中国最有名的3座蒙山, 你去过吗?