谷歌gemini吧 关注:2,017贴子:5,274

回复:关于chatgpt O3和gemini 2.5 pro

取消只看楼主收藏回复

O3自己解释说它被训练的更加倾向于快速减枝,而且往前回溯深度也比较浅,即便用户要求它深入思考,也不会明显提升这个阈值。他还说自己训练语料中积累的策略也没gemini那么全,同时注意力机制有局限,可能没办法再漫长的内部推演过程中时刻保持对某一状态的记忆,导致回溯的时候出错。它承认自己内化推理的深度不如gemini,自己更加倾向于养成“先 formalize→交给 Python 穷举”的习惯,禁用工具时缺乏兜底。


IP属地:北京46楼2025-06-10 02:34
收起回复
    O3自己的解释:
    可以这样理解,但需要补充几层背景,才能把 O3 “偏向调用外部工具”这一现象讲得更准确、完整。
    1 O3 为何优先把问题“外包”给工具?
    设计侧重点 具体机制 对复杂推理题的影响
    安全可靠性 训练时强奖励“给出可验证、必然正确的结果”。将逻辑题 formalize 成搜索 / 规划 / 代码后交给 Python 枚举,可 100% 覆盖状态空间 一旦被禁止使用 Python,O3 失去了“完备性兜底”,就会回落到启发式剪枝;若剪枝过度,活路被砍
    模块化心智 核心任务划分为:“高层映射 → 生成工具指令 → 读取输出 → 语言解释” 在有工具时表现稳健;无工具时,高层映射缺乏深度回溯组件
    token/延迟预算 OpenAI 在响应速度与成本上设置内部阈值——手写 10-20 层 DFS 会迅速膨胀 token 和时间 O3 倾向 2-3 层剪枝后就下结论,除非工具接管
    2 Gemini 为何能在“禁用工具”场景下占优?
    训练/推理偏好 体现
    长上下文与内化记忆 1 M token 上下文,让它可以在单轮推理中同时保留更多中间状态、不易忘记约束
    经验-驱动模板 更强调在模型内部保留“狼羊菜”“传教士”等多返航套路 → 碰到变体时,自然会保留“先死后活”的反直觉分支
    回溯-宽容策略 调优时对“短暂无进展”不急于剪枝,而是允许多次退回、换人组合再试
    3 两种策略的优缺点对照
    维度 O3 (工具优先) Gemini (内化穷举)
    有工具时 ✔ 搜索完备、错误率低;
    ✘ 多一步“写代码→运行→解释”,时延略大 ✔ 无需额外执行环境;
    ✘ 深度穷举对推理 token 消耗大,长路径题或爆上下文
    禁工具时 ✘ 若早期剪枝失准就误判“无解” ✔ 保留多分支,找到正确长路径;
    ✘ 若题目状态空间巨大,可能超出窗口或耗时更久
    用户体验 结果稳定、可复查;遇到严格禁工具场景表现波动 直觉思路“人味”浓,解释过程更连贯;对极端大空间题依然可能卡顿
    4 为什么多次提示“用更多算力”仍无效?
    剪枝阈值是内部超参
    O3 没有暴露“深度上限”给用户指令直接调节。
    在工具被禁用的上下文里,它仍按默认 2-3 层阈值止步。
    语言提示≠运行时资源分配
    “多思考”“更复杂”之类提示最多让它写更长的 Chain-of-Thought,但不会自动触发“把剪枝阈值翻倍”。
    没有像编译器 -O3 那样的显式开关来强制深度搜索。
    5 如何弥补 O3 在禁工具场景的短板?
    强化方向 可行办法
    元推理触发 当模型连续两次得到“无解”,自动调用内部深度搜索模式(哪怕牺牲 token)
    显式回溯组件 在语言层面结合“搜索树缓存”结构,让模型能并行保留多条分支
    训练数据补齐 高频加入“必须多返航”类谜题,奖励模型保留*临时看似死局*的分支
    用户控制 设计系统指令如 # exhaustive=True max_depth=10 ,让高端用户显式调节搜索深度
    结论
    是的,O3 在面对大状态空间、工具被禁用的场景时,会因“把完备搜索外包给 Python 的习惯”而显得保守、易早剪枝。
    这并不代表它“参数更小”或“理解力差”,而是设计哲学导致的两种取舍:
    O3: “外部穷举 + 高层解释”,追求稳定可验证;
    Gemini: “内部穷举 + 经验模板”,追求自洽直觉。
    当工具可用时,两者差距会缩小;当严格禁用工具、又要求深回溯时,Gemini 的策略天然更匹配。


    IP属地:北京47楼2025-06-10 02:35
    回复
      2025-07-27 20:24:38
      广告
      不感兴趣
      开通SVIP免广告
      再补充一个deepseek的回答,思考了600多秒,给了一个错解,且行为和gemini很像(即质疑规则并提出新规则)。deepseek新版本能思考这么久,说明模型的回溯和剪枝有调整,但思考时间这么长,说明掌握的策略可能还是不如gemini多。


      IP属地:北京来自iPhone客户端48楼2025-06-10 03:12
      回复
        deepseek:1. 奶奶和狗过江(左岸 → 右岸),奶奶划船返回(右岸 → 左岸)。
        2. 妈妈和一个女儿过江(左岸 → 右岸),妈妈划船返回(右岸 → 左岸)。
        3. 爸爸和一个儿子过江(左岸 → 右岸),爸爸划船返回(右岸 → 左岸)。
        4. 妈妈和另一个女儿过江(左岸 → 右岸),妈妈划船返回(右岸 → 左岸)。
        5. 爸爸和另一个儿子过江(左岸 → 右岸),爸爸划船返回(右岸 → 左岸)。
        6. 奶奶和狗过江(左岸 → 右岸)。
        7. 爸爸和妈妈一起过江(左岸 → 右岸)。
        ### 关键说明:
        - 在步骤3和5中,当狗在右岸且孩子到达时,狗的行为可能 risk,但谜题中通常假设成人(如妈妈或爸爸)在场时,狗不会立即吃人(奶奶不在时狗吃人,但成人可临时监管)。
        - 所有划船返回的步骤都确保左岸或右岸的约束被临时缓解(如奶奶在场或父母都在)。
        - 最终,所有人在右岸团聚,无任何违反约束。
        此方案经过逻辑推理,确保每一步安全。如果有疑问,可逐步验证状态。


        IP属地:北京来自iPhone客户端49楼2025-06-10 03:14
        收起回复
          我的结论是,openai好好提升一下O3的内功吧,提升一下它剪枝、回溯和注意力吧,提升一下模型掌握的策略吧。总不能啥问题都考虑怎么编程,怎么用python吧


          IP属地:北京来自iPhone客户端51楼2025-06-10 03:38
          收起回复
            google也是,能不能在保持gemini内功的基础上提升模型的工具调用能力呢。同时该死的auto think能不能优化一下呢?这个机制让gemini虽然内力深厚,但总是不用,除非用户层层引导,让他逐步往消耗内力较大的招式上投入。


            IP属地:北京来自iPhone客户端52楼2025-06-10 03:41
            回复
              O3的所以失败记录在这里,不调用工具一共失败了6次,平均推理时长在3min


              IP属地:北京来自iPhone客户端55楼2025-06-10 11:36
              收起回复
                应该就是这样了。大模型做题,首先是它数据库里有数据和类似的题目,方便他类比。下来就是拿到题目之后它要转化为自己的语言(也就是向量空间中的对应向量),然后找策略,并记录此刻的状态。在一个策略成功概率低后会剪枝,不再思考类似的策略。都做不出来会回溯到之前的某个记录,继续试试被剪掉的策略。而O3倾向于迅速剪枝和短回溯,且对推理过程中出现的每个状态的记录并不强,注意力也没那么强。核心机制就是尽可能地不要自己内部推理,而是要让工具帮忙穷举


                IP属地:北京来自iPhone客户端56楼2025-06-10 11:44
                回复
                  2025-07-27 20:18:38
                  广告
                  不感兴趣
                  开通SVIP免广告
                  claude 4和O1 pro我这边没有,各位有的也可以测试一下这两个模型的内功。也就是模型自身的数据资料、注意力、回溯和剪枝的深度。


                  IP属地:北京来自iPhone客户端57楼2025-06-10 11:46
                  回复
                    https://x.com/sama/status/1932434606558462459
                    最新消息,O3准备降价80%,考虑到成本下降地如此厉害,有这么几种可能
                    1.O3的实际参数并不大,成本并不高,因此gpt有降价的底气。从测评结果来看,O3内部推理能力(注意力、记忆、剪枝、回溯)可能并没有预留太多的空间,这导致O3推理时实际消耗的算力更少,且更倾向于用工具解决问题。也导致O3理解复杂的体系,不靠python穷举而纯粹内部推导的能力较差。
                    2.Open AI会进一步削弱O3的参数规模和内部推理能力,加强O3的工具调用能力,用一个更小、成本更低的模型替代O3
                    3.Open AI 的O3将在google云上运行,且成本的确下降了很多。
                    也不知道是那种可能,但我感觉三者都有。如果不是因为google云降低成本的原因,就只能说SumAltman真黑,把一个小模型卖到成本价五倍的价格。


                    IP属地:北京63楼2025-06-10 23:44
                    收起回复
                      补充一个O3pro的测试结果
                      我托朋友试了试O3pro,思考了很久,还是无解,准备引导在深入思考的时候,O3pro罢工了。看来openai吸收了gpt4.5的教训,已经不准备做大参数、长上下文、内部推理的模型了。中小参数,低成本,配上数学、编码+调用工具能力的模型应该是他们主要的发展策略了。


                      IP属地:北京来自iPhone客户端64楼2025-06-11 20:20
                      收起回复
                        今天又测了gemini 06-05的自动思考预算,用了两次答对。可是网页端也是好几次答不对……


                        IP属地:北京来自iPhone客户端65楼2025-06-12 00:50
                        收起回复
                          我的账号也有O3 pro了,现在补充一下O3 pro的测试结果,它每次都会思考十几分钟,确实卖力思考了,但就是在无法使用工具的情况下答对。
                          第一次说无解;第二次,我引导他思考步数更长的走法,还说无解。第三次,我针对他认为无解的地方(儿子不可能运过去)指出两个儿子可以顺利运过去,结果他还说两个女儿运不过去,无解。是一点没有从两个儿子的策略中获得启发,考虑这种曲折的方案呀。而且我还暗示它要考虑更加曲折的办法。


                          IP属地:北京来自iPhone客户端66楼2025-06-12 15:20
                          回复
                            第四次,我把他认为无解的地方一一给出处理办法,给出了前十步的走法,它终于解出来了,但这没意义,因为这个问题最难的操作已经被我直接给他了……
                            而且它思考了12min,似乎O3pro回答每个问题都这么长。可能并不是模型注意力和剪枝、回溯策略有多么复杂、强大,而是多个O3回答问题,然后互相点评。感觉OpenAI相比于提高模型自身的参数和内部推理能力,真的是全力搞“full of fools”去了。


                            IP属地:北京来自iPhone客户端67楼2025-06-12 15:23
                            收起回复
                              2025-07-27 20:12:38
                              广告
                              不感兴趣
                              开通SVIP免广告
                              再测一下O3pro的论文理解能力,这次找了一篇复几何的文献给O3pro,它的总结如下,思考的时间相当漫长(21min),结果还是很简短。


                              IP属地:北京来自iPhone客户端68楼2025-06-12 16:16
                              回复