图源 Pexels
周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。IT之家注意到,研究人员通过对数学问题的微小改动,例如添加无关的信息,来测试 LLM 的推理能力。结果发现,这些模型在面对这样的变化时,其表现急剧下降。
例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小。”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”
上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。
研究人员认为,这种现象表明 LLM 并没有真正理解数学问题,而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否计算小的奇异果,它们就会产生奇怪的、不合常理的结果。
这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高 LLM 的推理能力,使其能够更好地理解和解决复杂的问题。
樱花雪 | 3天前 |
真是个好帮手,功能齐全,操作简单,非常实用! |
美梦被尿惊醒 | 8天前 |
总体来说还可以,但是希望能够增加一些更多样化的功能,提升使用乐趣。 |
甜蜜宝贝 | 2天前 |
无论是工作还是生活,都很实用! |
星光小精灵 | 1天前 |
界面设计很漂亮,用起来很舒心! |
温柔小仙子 | 7天前 |
必须联网吗,催更催更,值得一试,挺喜欢的。 |
糖果女神 | 1天前 |
软件很容易操作,太方便了 |
天空之城 | 7天前 |
界面有点复杂,需要花些时间去适应,不太方便。 |
小仙女 | 4天前 |
帮我省了很多时间,赞! |
某只望仔 | 7天前 |
操作简单,省时省力! |
迷恋你 | 9天前 |
绝对是我用过的最好的app之一,推荐给大家! |