O3和gemini推理能力测试【chatgpt吧】

chatgpt吧关注：142,803贴子：457,760

8回复贴，共1页

O3和gemini推理能力测试

先说说我理解的推理能力。在我看来推理能力就是你描述一些新概念和它们之间的逻辑关系之后，模型能够以自己的方式理解这些概念、逻辑关系、限制条件。然后基于这种理解去检索自己已有的知识和处理策略，最终发现概念体系自身蕴含的结构，提出自己的猜想或者回应人类提出的猜想。除了研究概念体系本身以为，推理模型还应当尝试用自己学习的新概念体系来分析具体问题，为一些经典问题提供简洁的处理方法，为尚未解决的问题提供新的处理思路，从而让人类看到一个概念体系解决问题的价值。
总而言之，推理意味着理解概念体系本身或用概念体系来解决其他问题。而经过我的测试，我发现chatgptO3内化新的概念体系的能力并不强，它无法在冗长的任务中保持对基本概念的理解。它的的所谓推理，更多的是分析问题的关键限制后，找出一些策略来把问题转化为编程语言，之后交给python来运行代码、穷举遍历，然后它在评估结果。换句话说O3强大的是工具调用能力，而真正的理解力和注意力并不如gemini。对于gemini，我可以输入给它一整本书或论文，让它为我解释概念，之后再用这些概念和策略尝试处理其他问题，而这一点O3做不到
下面是具体的测试
https://tieba.baidu.com/p/9776868091

送TA礼物

IP属地:北京