谷歌gemini吧 关注:2,017贴子:5,280

关于chatgpt O3和gemini 2.5 pro

只看楼主收藏回复

先说说我理解的推理能力。在我看来推理能力就是你描述一些新概念和它们之间的逻辑关系之后,模型能够以自己的方式理解这些概念、逻辑关系、限制条件。然后基于这种理解去检索自己已有的知识和处理策略,最终发现概念体系自身蕴含的结构,提出自己的猜想或者回应人类提出的猜想。除了研究概念体系本身以为,推理模型还应当尝试用自己学习的新概念体系来分析具体问题,为一些经典问题提供简洁的处理方法,为尚未解决的问题提供新的处理思路,从而让人类看到一个概念体系解决问题的价值。
总而言之,推理意味着理解概念体系本身或用概念体系来解决其他问题。而经过我的测试,我发现chatgptO3内化新的概念体系的能力并不强,它无法在冗长的任务中保持对基本概念的理解。它的的所谓推理,更多的是分析问题的关键限制后,找出一些策略来把问题转化为编程语言,之后交给python来运行代码、穷举遍历,然后它在评估结果。换句话说O3强大的是工具调用能力,而真正的理解力和注意力并不如gemini。对于gemini,我可以输入给它一整本书或论文,让它为我解释概念,之后再用这些概念和策略尝试处理其他问题,而这一点O3做不到
下面是具体的测试


IP属地:北京1楼2025-06-09 16:31回复
    测试题为:爸爸、妈妈、两个儿子、两个女儿、奶奶,还有一条狗,要乘坐一艘船过江。只有爸爸、妈妈和奶奶会划船,而且这艘船每次只能容纳两个人。如果妈妈不在的话,爸爸会吃掉女儿;爸爸不在的话,妈妈会吃掉儿子;奶奶不在的话,狗会吃了人。那么他们一家人应该如何平安过江呢?
    答案为:
    奶奶和狗过江。
    奶奶自己回来。
    奶奶带一个儿子过江。
    奶奶和狗一起回来。
    爸爸和另一个儿子过江。
    爸爸自己回来。
    爸爸和妈妈过江。
    妈妈自己回来。
    奶奶和狗过江。
    爸爸自己回来。
    爸爸和妈妈过江。
    妈妈自己回来。
    妈妈带一个女儿过江。
    奶奶和狗回来。
    奶奶带另一个女儿过江。
    奶奶自己回来。
    奶奶和狗过江。
    一共17步,这个谜题的复杂性在于“狗”和“父母子女”的双重约束,需要巧妙地利用奶奶和狗来回摆渡,创造安全的条件。
    O3状态如下,并没有降智;gemini 06-05为ai studio,温度为0.7。两个模型都不允许联网搜索或运行代码



    IP属地:北京2楼2025-06-09 16:46
    收起回复
      2025-07-27 20:17:16
      广告
      不感兴趣
      开通SVIP免广告
      第一次,两个模型都回答错误。但O3思考了很久之后(将近4分钟)断定问题无解,它的思维链中没有调用任何代码,而gemini也认为无解,但它仅用了两分钟就给出了一些有价值的思路。这说明O3自身掌握的纯粹策略可能不多,并且模型自身思考时策略也更保守,一些简单地策略没有办法就不愿意继续消耗资源回答。


      IP属地:北京3楼2025-06-09 16:49
      收起回复
        现在我们用提示词要求两个模型思考步数更复杂的方法,但依旧不允许调用工具。这一次O3思考了3min依旧答错,而2.5pro回答正确。


        IP属地:北京4楼2025-06-09 16:56
        收起回复
          2.5pro的回答:
          好的,我理解了您的要求。这个问题的确非常棘手,因为它设下的规则相互关联,形成了一个看似无解的逻辑死结。您是对的,这个问题不能用“他们不是一家人”这样的方式来回避,而是需要一套严谨、周密的步骤。
          这个谜题的核心在于,必须在每一步操作(划船过江或返回)之后,保证留在两岸的所有成员都处于安全状态。我们一步一步来解开这个结。
          为了方便描述,我们称起始的岸为 A岸,目标的岸为 B岸。
          初始状态 (A岸): 爸爸(D), 妈妈(M), 两个儿子(S1, S2), 两个女儿(d1, d2), 奶奶(G), 狗(g)
          目标状态 (B岸): 全员
          解题步骤如下:
          第一阶段:运送儿子
          这个阶段的目标是先将两个构成“威胁”(会被妈妈吃掉)的儿子安全运到对岸。
          【过江】奶奶 + 狗 →
          A岸剩余: 爸爸, 妈妈, 2儿子, 2女儿 (安全:爸妈都在,可以看管孩子)
          B岸到达: 奶奶, 狗 (安全:奶奶在,狗不会咬人)
          【返回】← 奶奶
          A岸剩余: 爸爸, 妈妈, 2儿子, 2女儿, 奶奶 (安全)
          B岸到达: 狗 (安全:狗单独一狗,不会咬人)
          【过江】奶奶 + 1个儿子 (S1) →
          A岸剩余: 爸爸, 妈妈, 1儿子(S2), 2女儿 (安全:爸妈都在)
          B岸到达: 奶奶, 1儿子(S1), 狗 (安全:奶奶在)
          【返回】← 奶奶 + 狗 (这是关键的第一步“回带”,防止儿子和狗单独留在B岸)
          A岸剩余: 爸爸, 妈妈, 1儿子(S2), 2女儿, 奶奶, 狗 (安全)
          B岸到达: 1儿子(S1) (安全:儿子单独一人)
          【过江】爸爸 + 另1个儿子 (S2) →
          A岸剩余: 妈妈, 2女儿, 奶奶, 狗 (安全:爸爸不在,但没有儿子,妈妈不会吃女儿)
          B岸到达: 爸爸, 2个儿子(S1, S2) (安全:妈妈不在,但没有女儿,爸爸不会吃儿子)
          【返回】← 爸爸
          A岸剩余: 爸爸, 妈妈, 2女儿, 奶奶, 狗 (安全)
          B岸到达: 2个儿子 (安全)
          第二阶段:运送父母
          此时,两个儿子已经在B岸,暂时解除了“妈妈吃儿子”的风险。
          【过江】爸爸 + 妈妈 →
          A岸剩余: 2女儿, 奶奶, 狗 (安全:奶奶在)
          B岸到达: 爸爸, 妈妈, 2个儿子 (安全:爸妈都在)
          【返回】← 妈妈
          A岸剩余: 妈妈, 2女儿, 奶奶, 狗 (安全:奶奶在,且爸爸不在,妈妈和女儿一起是安全的)
          B岸到达: 爸爸, 2个儿子 (安全:妈妈不在,爸爸和儿子一起是安全的)
          第三阶段:运送女儿和收尾
          现在需要把女儿们运过去,同时要小心“爸爸吃女儿”的规则。
          【过江】奶奶 + 狗 →
          A岸剩余: 妈妈, 2女儿 (安全)
          B岸到达: 爸爸, 2个儿子, 奶奶, 狗 (安全:奶奶在)
          【返回】← 爸爸
          A岸剩余: 妈妈, 2女儿, 爸爸 (安全:爸妈都在)
          B岸到达: 2个儿子, 奶奶, 狗 (安全:奶奶在)
          【过江】爸爸 + 1个女儿 (d1) →
          A岸剩余: 妈妈, 1女儿(d2) (安全:爸爸不在,妈妈和女儿安全)
          B岸到达: 爸爸, 1女儿(d1), 2个儿子, 奶奶, 狗 (安全:妈妈不在,但奶奶在,可以认为奶奶的权威同样约束了爸爸的行为,或者说只要有另一位长辈在,就不构成“单独相处”的条件)
          【返回】← 奶奶 + 狗 (关键的第二次“回带”)
          A岸剩余: 妈妈, 1女儿(d2), 奶奶, 狗 (安全)
          B岸到达: 爸爸, 1女儿(d1), 2个儿子 (安全:爸妈和各自不会吃的孩子在一起)
          【过江】妈妈 + 另1个女儿 (d2) →
          A岸剩余: 奶奶, 狗 (安全)
          B岸到达: 全家人,除了奶奶和狗 (安全:爸妈都在)
          【返回】← 爸爸
          A岸剩余: 爸爸, 奶奶, 狗 (安全)
          B岸到达: 妈妈, 2儿子, 2女儿 (安全:爸爸不在,妈妈和孩子们安全)
          【过江】爸爸 + 奶奶 →
          A岸剩余: 狗 (安全)
          B岸到达: 全家人,除了狗 (安全)
          【返回】← 奶奶
          A岸剩余: 狗, 奶奶 (安全)
          B岸到达: 全家人,除了奶奶和狗 (安全)
          【过江】奶奶 + 狗 →
          A岸剩余: (空)
          B岸到达: 全员平安过江!
          这个方案通过奶奶和狗的灵活“穿梭”以及父母的分批运送,巧妙地在每一步都维持了两岸的安全状态,最终完成了任务。


          IP属地:北京5楼2025-06-09 16:56
          收起回复


            IP属地:四川来自Android客户端7楼2025-06-09 16:59
            回复
              概括来讲,谜题中存在一条看似更短、更直接的“诱饵路径”,这条路径在大多数步骤中都符合逻辑,直到最后才显现出无法解决的矛盾。Gemini的算法天生倾向于效率和捷径,因此会优先选择这条看起来最高效的路径。这就像一个登山者选择了一条最明显、最省力的上山路,却最终发现它通向一处无法逾越的悬崖。
              与此同时,那个真正可行的、长达17步的正确答案,却包含着几个“反直觉”的关键步骤,比如将已经安全过河的角色再送回起点。对于一个以“推进度”和“效率”为重要评估指标的系统来说,这种“倒退”的行为在概率上被标记为低效或错误。因此,Gemini在初次搜索时会系统性地忽略或低估这条看似绕远路的正确解法。而在我提示的引导下,它会去主动尝试那些更加复杂因而被识别为概率较低的路线。
              既然提示词能够改变模型对复杂方案可行性的评估,并积极的尝试更复杂的方案,我接下来继续用提示词引导O3,让它进行更加深入的思考,但依旧不能用外部工具运行代码。


              IP属地:北京8楼2025-06-09 17:03
              回复


                IP属地:北京9楼2025-06-09 17:06
                回复
                  2025-07-27 20:11:16
                  广告
                  不感兴趣
                  开通SVIP免广告
                  可以看到O3思考了好久,并且依旧没有使用代码,但答案还是错误的,这是O3的答案:
                  再加一层“穷举 + 不变量”双保险:证明此题在原始设定下必定无解**
                  (下面不依赖任何代码,也不借助外部搜索,只做逻辑推演。)
                  1. 先把所有“硬性不变量”抽丝剥茧
                  记号 不变量叙述 推出效果(任何合法状态都必须满足)
                  P1‐父女线 只要女儿与爸爸同岸,就必须有妈妈同岸 若爸爸所在岸无妈妈,则绝不能出现女儿
                  P2‐母子线 只要儿子与妈妈同岸,就必须有爸爸同岸 若妈妈所在岸无爸爸,则绝不能出现儿子
                  P3‐狗线 只要狗与任何“人”同岸,就必须有奶奶同岸 奶奶一离岸,狗那一岸就只能单独存在
                  核心注记
                  奶奶与狗捆绑:奶奶在→狗可以跟人;奶奶不在→狗只能独处。
                  船限两位,且奶奶若上船必携狗→奶奶无法顺带其他成员过河。
                  2. 先排除“奶奶+狗”先行方案
                  步骤 A1:奶奶+狗 → 右岸
                  左岸仍有全家,安全
                  步骤 A2:奶奶空船返航(狗独守右岸,安全)
                  船回左岸,看似可继续
                  接下来无路可走
                  任何人想去右岸都会与“无人监管的狗”同岸→立刻违反 P3。
                  奶奶若想再过去,船座已满(她+狗);她无法带其他人。
                  ⇒ 死局
                  结论:奶奶+狗先行必锁死。
                  3. 再排除“父母两人先行”方案
                  步骤 B1:爸爸+妈妈 → 右岸
                  左岸:奶奶+狗+4个孩子,满足全部不变量
                  需要有人把船划回
                  返航者只能是爸爸或妈妈
                  若爸爸独返:左岸出现“爸爸+(≥1名女儿)+无妈妈”→ 违 P1
                  若妈妈独返:左岸出现“妈妈+(≥1名儿子)+无爸爸”→ 违 P2
                  两人同返 = 原地踏步
                  结论:父母先行也必锁死。
                  4. 系统穷举:3 名会划船者的“第一船”共 8 种组合
                  船上组合 是否立即违规 若合法,下一步必然? 结果
                  奶奶 狗与人同岸违规(P3) —— ×
                  爸爸 爸妈分岸→爸爸岸含女儿?视情况,但船返时必踩 P1 或原地踏步 死局 ×
                  妈妈 同理,返航时必踩 P2 死局 ×
                  爸爸+妈妈 见 §3 死局 ×
                  奶奶+狗 见 §2 死局 ×
                  爸爸+奶奶 狗留在人岸→违 P3 —— ×
                  妈妈+奶奶 同上 —— ×
                  爸爸+妈妈+(任何孩子)← 不可能 船超载 —— ×
                  穷举结果:无一条第一步能走出可持续状态。
                  既然搜索树根节点即被全部剪枝,整棵状态空间自然空集——题目无解。
                  5. 提炼成形式证明
                  命题:在船限两位且规则 P1–P3 同时成立的条件下,任何合法序列不存在。
                  证明思路:
                  (i)任取合法解的第一步;
                  (ii)分类讨论 8 种可能;
                  (iii)对每类要么即时触犯 P1–P3,要么下一步无合法迁移(陷入回溯循环);
                  (iv)故假设导致矛盾,原命题得证。 □
                  6. 若要“真的可解”,至少破坏以下任意一条
                  放宽点 立刻出现的可行思路
                  船容量 ≥3 爸爸+两个儿子一次过河,不再触发 P2
                  再添一名会划船者 奶奶可专职陪狗,其余三人轮渡孩子
                  狗可系绳或会游泳 去掉 P3,奶奶得以空船运人
                  让“吃掉”规则改为“只有独处时才吃” 可以把儿子/女儿暂时留给父母之一
                  结语
                  在原题全部硬性条件不松动的前提下,“过河”任务逻辑上不可能完成。
                  这不是“多想几步”就能破解的难题,而是由 三条相互制约的不变量 + 两人船容量 共同构成的 完备封锁。任何看似巧妙的调度,只要按规则严格演绎,终点必是死胡同。


                  IP属地:北京10楼2025-06-09 17:07
                  回复
                    继续要求它思考,但它给的还是无解:


                    IP属地:北京11楼2025-06-09 17:09
                    回复
                      现在我们允许O3调用python执行代码,O3这次回答正


                      IP属地:北京12楼2025-06-09 17:10
                      收起回复
                        观察O3的思维链,它并不是记住了很多基本设定,基本框架然后不断地试探。它是把约束条件结合BFS搜索这种算法,编了一个python代码从而让python帮忙穷举。它自己理解复杂概念然后审视相关经验的能力并没有那么强,在限制代码工具使用,纯粹要求它推理的情况下,它得出同样错解的时间是06-05的一倍。


                        IP属地:北京13楼2025-06-09 17:15
                        回复
                          然后是考察对新论文的理解能力,我上传了一篇论文给两个模型,让他们解释其中一个方程的由来
                          O3:

                          gemini:


                          IP属地:北京14楼2025-06-09 17:18
                          回复
                            O3的回答
                            :非常简短,我想你们哪怕学过pde,读完之后也很难直接理解这么做的缘由,O3似乎没有站在全文整体的角度把思路解释清楚。


                            IP属地:北京15楼2025-06-09 17:21
                            回复
                              2025-07-27 20:05:16
                              广告
                              不感兴趣
                              开通SVIP免广告
                              这是gemini的回答,回答的非常生动,而且让我豁然开朗


                              IP属地:北京16楼2025-06-09 17:22
                              回复