【图片】回复：关于chatgpt O3和gemini 2.5 pro【谷歌gemini吧】

谷歌gemini吧关注：2,013贴子：5,252

首页上一页 1 2 3 4
142回复贴，共4页
，跳到页

回复：关于chatgpt O3和gemini 2.5 pro

我觉得o3就是为了省算力特意调整的。写一个python运行消耗的算力，只看最近几万字的算力，远远小于模型慢慢推测，完全回顾百万字的算力消耗。o3 pro应该会是特意使用大量算力来提升性能的版本，到时候o3 pro应该也不会弱，可能解决长文本不看上下文的问题。

IP属地:北京

来自Android客户端53楼2025-06-10 10:18

收起回复

楼主的测评写的真好
claude4在这类问题上的表现如何呢？楼主有没有兴趣看看
deepseek现在距离最新一批大模型还是有差距的，希望能早点出R2肘飞谷÷A÷

IP属地:北京

来自Android客户端54楼2025-06-10 10:28

收起回复

不感兴趣

开通SVIP免广告

O3的所以失败记录在这里，不调用工具一共失败了6次，平均推理时长在3min

IP属地:北京

来自iPhone客户端55楼2025-06-10 11:36

收起回复

应该就是这样了。大模型做题，首先是它数据库里有数据和类似的题目，方便他类比。下来就是拿到题目之后它要转化为自己的语言（也就是向量空间中的对应向量），然后找策略，并记录此刻的状态。在一个策略成功概率低后会剪枝，不再思考类似的策略。都做不出来会回溯到之前的某个记录，继续试试被剪掉的策略。而O3倾向于迅速剪枝和短回溯，且对推理过程中出现的每个状态的记录并不强，注意力也没那么强。核心机制就是尽可能地不要自己内部推理，而是要让工具帮忙穷举

IP属地:北京

来自iPhone客户端56楼2025-06-10 11:44

claude 4和O1 pro我这边没有，各位有的也可以测试一下这两个模型的内功。也就是模型自身的数据资料、注意力、回溯和剪枝的深度。

IP属地:北京

来自iPhone客户端57楼2025-06-10 11:46

使用Claude 4 opus thinking，顶不住了，该给的提示都给了，就是做不对，Claude完全做不了这种逻辑链非常长的题目，让他一次性给出完整的17步都做不到只能拆开来做，但是即使这样也依旧一直错，甚至到后面还出现了“狗不算人可以不占一个位置的想法”

IP属地:安徽

来自Android客户端58楼2025-06-10 12:05

收起回复

kingfall好像暴毙了，不过现在的0605哈基米也挺强的，语义理解这一块真的牛批，不仅知道你想问什么，还知道你可能要说什么，o3为什么解释不清楚，强化学习就是会导致灾难性遗忘和边缘能力减弱吧，朝着固定的模式收敛了。deepmind能做到这么均匀而且幻觉率还低我觉得确实牛逼

IP属地:甘肃

来自Android客户端59楼2025-06-10 15:17

大佬，如果预览是这个，怎么破

IP属地:江苏

来自Android客户端60楼2025-06-10 21:53

收起回复

不感兴趣

开通SVIP免广告

https://x.com/sama/status/1932434606558462459
最新消息，O3准备降价80%，考虑到成本下降地如此厉害，有这么几种可能
1.O3的实际参数并不大，成本并不高，因此gpt有降价的底气。从测评结果来看，O3内部推理能力（注意力、记忆、剪枝、回溯）可能并没有预留太多的空间，这导致O3推理时实际消耗的算力更少，且更倾向于用工具解决问题。也导致O3理解复杂的体系，不靠python穷举而纯粹内部推导的能力较差。
2.Open AI会进一步削弱O3的参数规模和内部推理能力，加强O3的工具调用能力，用一个更小、成本更低的模型替代O3
3.Open AI 的O3将在google云上运行，且成本的确下降了很多。
也不知道是那种可能，但我感觉三者都有。如果不是因为google云降低成本的原因，就只能说SumAltman真黑，把一个小模型卖到成本价五倍的价格。

IP属地:北京

63楼2025-06-10 23:44

收起回复

补充一个O3pro的测试结果
我托朋友试了试O3pro，思考了很久，还是无解，准备引导在深入思考的时候，O3pro罢工了。看来openai吸收了gpt4.5的教训，已经不准备做大参数、长上下文、内部推理的模型了。中小参数，低成本，配上数学、编码+调用工具能力的模型应该是他们主要的发展策略了。

IP属地:北京

来自iPhone客户端64楼2025-06-11 20:20

收起回复

今天又测了gemini 06-05的自动思考预算，用了两次答对。可是网页端也是好几次答不对……

IP属地:北京

来自iPhone客户端65楼2025-06-12 00:50

收起回复

我的账号也有O3 pro了，现在补充一下O3 pro的测试结果，它每次都会思考十几分钟，确实卖力思考了，但就是在无法使用工具的情况下答对。
第一次说无解；第二次，我引导他思考步数更长的走法，还说无解。第三次，我针对他认为无解的地方（儿子不可能运过去）指出两个儿子可以顺利运过去，结果他还说两个女儿运不过去，无解。是一点没有从两个儿子的策略中获得启发，考虑这种曲折的方案呀。而且我还暗示它要考虑更加曲折的办法。

IP属地:北京

来自iPhone客户端66楼2025-06-12 15:20

第四次，我把他认为无解的地方一一给出处理办法，给出了前十步的走法，它终于解出来了，但这没意义，因为这个问题最难的操作已经被我直接给他了……
而且它思考了12min，似乎O3pro回答每个问题都这么长。可能并不是模型注意力和剪枝、回溯策略有多么复杂、强大，而是多个O3回答问题，然后互相点评。感觉OpenAI相比于提高模型自身的参数和内部推理能力，真的是全力搞“full of fools”去了。