chatgpt吧 关注:142,803贴子:457,760
  • 8回复贴,共1

O3和gemini推理能力测试

只看楼主收藏回复

先说说我理解的推理能力。在我看来推理能力就是你描述一些新概念和它们之间的逻辑关系之后,模型能够以自己的方式理解这些概念、逻辑关系、限制条件。然后基于这种理解去检索自己已有的知识和处理策略,最终发现概念体系自身蕴含的结构,提出自己的猜想或者回应人类提出的猜想。除了研究概念体系本身以为,推理模型还应当尝试用自己学习的新概念体系来分析具体问题,为一些经典问题提供简洁的处理方法,为尚未解决的问题提供新的处理思路,从而让人类看到一个概念体系解决问题的价值。
总而言之,推理意味着理解概念体系本身或用概念体系来解决其他问题。而经过我的测试,我发现chatgptO3内化新的概念体系的能力并不强,它无法在冗长的任务中保持对基本概念的理解。它的的所谓推理,更多的是分析问题的关键限制后,找出一些策略来把问题转化为编程语言,之后交给python来运行代码、穷举遍历,然后它在评估结果。换句话说O3强大的是工具调用能力,而真正的理解力和注意力并不如gemini。对于gemini,我可以输入给它一整本书或论文,让它为我解释概念,之后再用这些概念和策略尝试处理其他问题,而这一点O3做不到
下面是具体的测试
https://tieba.baidu.com/p/9776868091


IP属地:北京1楼2025-06-10 00:43回复
    宝藏楼主啊,有联系方式吗


    IP属地:陕西来自Android客户端2楼2025-06-16 15:02
    收起回复
      2025-07-18 07:26:47
      广告
      你说这些没有用 o3用工具又不会有什么损失 gemini想用都用不上有啥办法


      IP属地:河南来自Android客户端3楼2025-06-17 09:54
      收起回复
        人类不拿枪打不过狮子老虎 问题是人类能拿枪 这样对比没意义


        IP属地:河南来自Android客户端4楼2025-06-17 09:56
        收起回复
          辛苦辛苦👍


          IP属地:北京来自iPhone客户端6楼2025-06-17 12:09
          回复