网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
07月27日
漏签
0
天
谷歌gemini吧
关注:
2,013
贴子:
5,252
看贴
图片
吧主推荐
游戏
首页
上一页
1
2
3
4
142
回复贴,共
4
页
,跳到
页
确定
<返回谷歌gemini吧
>0< 加载中...
回复:关于chatgpt O3和gemini 2.5 pro
只看楼主
收藏
回复
无敌的小邓
铁杆吧友
8
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我觉得o3就是为了省算力特意调整的。写一个python运行消耗的算力,只看最近几万字的算力,远远小于模型慢慢推测,完全回顾百万字的算力消耗。o3 pro应该会是特意使用大量算力来提升性能的版本,到时候o3 pro应该也不会弱,可能解决长文本不看上下文的问题。
IP属地:北京
来自
Android客户端
53楼
2025-06-10 10:18
回复(7)
收起回复
阿卡特I莱尔
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
楼主的测评写的真好
claude4在这类问题上的表现如何呢?楼主有没有兴趣看看
deepseek现在距离最新一批大模型还是有差距的,希望能早点出R2肘飞谷÷A÷
IP属地:北京
来自
Android客户端
54楼
2025-06-10 10:28
回复(2)
收起回复
2025-07-27 15:24:43
广告
不感兴趣
开通SVIP免广告
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
O3的所以失败记录在这里,不调用工具一共失败了6次,平均推理时长在3min
IP属地:北京
来自
iPhone客户端
55楼
2025-06-10 11:36
回复(11)
收起回复
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
应该就是这样了。大模型做题,首先是它数据库里有数据和类似的题目,方便他类比。下来就是拿到题目之后它要转化为自己的语言(也就是向量空间中的对应向量),然后找策略,并记录此刻的状态。在一个策略成功概率低后会剪枝,不再思考类似的策略。都做不出来会回溯到之前的某个记录,继续试试被剪掉的策略。而O3倾向于迅速剪枝和短回溯,且对推理过程中出现的每个状态的记录并不强,注意力也没那么强。核心机制就是尽可能地不要自己内部推理,而是要让工具帮忙穷举
IP属地:北京
来自
iPhone客户端
56楼
2025-06-10 11:44
回复
收起回复
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
claude 4和O1 pro我这边没有,各位有的也可以测试一下这两个模型的内功。也就是模型自身的数据资料、注意力、回溯和剪枝的深度。
IP属地:北京
来自
iPhone客户端
57楼
2025-06-10 11:46
回复
收起回复
过来逛逛happy
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
使用Claude 4 opus thinking,顶不住了,该给的提示都给了,就是做不对,Claude完全做不了这种逻辑链非常长的题目,让他一次性给出完整的17步都做不到只能拆开来做,但是即使这样也依旧一直错,甚至到后面还出现了“狗不算人可以不占一个位置的想法”
IP属地:安徽
来自
Android客户端
58楼
2025-06-10 12:05
回复(15)
收起回复
又名乌塔
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
kingfall好像暴毙了,不过现在的0605哈基米也挺强的,语义理解这一块真的牛批,不仅知道你想问什么,还知道你可能要说什么,o3为什么解释不清楚,强化学习就是会导致灾难性遗忘和边缘能力减弱吧,朝着固定的模式收敛了。deepmind能做到这么均匀而且幻觉率还低我觉得确实牛逼
IP属地:甘肃
来自
Android客户端
59楼
2025-06-10 15:17
回复
收起回复
风车骑士184
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
大佬,如果预览是这个,怎么破
IP属地:江苏
来自
Android客户端
60楼
2025-06-10 21:53
回复(2)
收起回复
2025-07-27 15:18:43
广告
不感兴趣
开通SVIP免广告
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
https://x.com/sama/status/1932434606558462459
最新消息,O3准备降价80%,考虑到成本下降地如此厉害,有这么几种可能
1.O3的实际参数并不大,成本并不高,因此gpt有降价的底气。从测评结果来看,O3内部推理能力(注意力、记忆、剪枝、回溯)可能并没有预留太多的空间,这导致O3推理时实际消耗的算力更少,且更倾向于用工具解决问题。也导致O3理解复杂的体系,不靠python穷举而纯粹内部推导的能力较差。
2.Open AI会进一步削弱O3的参数规模和内部推理能力,加强O3的工具调用能力,用一个更小、成本更低的模型替代O3
3.Open AI 的O3将在google云上运行,且成本的确下降了很多。
也不知道是那种可能,但我感觉三者都有。如果不是因为google云降低成本的原因,就只能说SumAltman真黑,把一个小模型卖到成本价五倍的价格。
IP属地:北京
63楼
2025-06-10 23:44
回复(6)
收起回复
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
补充一个O3pro的测试结果
我托朋友试了试O3pro,思考了很久,还是无解,准备引导在深入思考的时候,O3pro罢工了。看来openai吸收了gpt4.5的教训,已经不准备做大参数、长上下文、内部推理的模型了。中小参数,低成本,配上数学、编码+调用工具能力的模型应该是他们主要的发展策略了。
IP属地:北京
来自
iPhone客户端
64楼
2025-06-11 20:20
回复(2)
收起回复
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
今天又测了gemini 06-05的自动思考预算,用了两次答对。可是网页端也是好几次答不对……
IP属地:北京
来自
iPhone客户端
65楼
2025-06-12 00:50
回复(6)
收起回复
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我的账号也有O3 pro了,现在补充一下O3 pro的测试结果,它每次都会思考十几分钟,确实卖力思考了,但就是在无法使用工具的情况下答对。
第一次说无解;第二次,我引导他思考步数更长的走法,还说无解。第三次,我针对他认为无解的地方(儿子不可能运过去)指出两个儿子可以顺利运过去,结果他还说两个女儿运不过去,无解。是一点没有从两个儿子的策略中获得启发,考虑这种曲折的方案呀。而且我还暗示它要考虑更加曲折的办法。
IP属地:北京
来自
iPhone客户端
66楼
2025-06-12 15:20
回复
收起回复
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
第四次,我把他认为无解的地方一一给出处理办法,给出了前十步的走法,它终于解出来了,但这没意义,因为这个问题最难的操作已经被我直接给他了……
而且它思考了12min,似乎O3pro回答每个问题都这么长。可能并不是模型注意力和剪枝、回溯策略有多么复杂、强大,而是多个O3回答问题,然后互相点评。感觉OpenAI相比于提高模型自身的参数和内部推理能力,真的是全力搞“full of fools”去了。
IP属地:北京
来自
iPhone客户端
67楼
2025-06-12 15:23
回复(2)
收起回复
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
再测一下O3pro的论文理解能力,这次找了一篇复几何的文献给O3pro,它的总结如下,思考的时间相当漫长(21min),结果还是很简短。
IP属地:北京
来自
iPhone客户端
68楼
2025-06-12 16:16
回复
收起回复
2025-07-27 15:12:43
广告
不感兴趣
开通SVIP免广告
*顺其自然*
核心吧友
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
这是kingfall 99s得出的理解:
IP属地:北京
来自
iPhone客户端
69楼
2025-06-12 16:18
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
武大诬告女持续威胁受害男生
2574910
2
AG选GEN当底座替LPL报仇
2013536
3
蜜月期?BLG一换打野就复仇AL
1446432
4
7/26乐子内容限定
1245150
5
未卜先知?美国早已研发基孔疫苗
1007328
6
北京国安两连败被喊丢人现眼
972969
7
复旦留学生打人 校方零处罚
730202
8
国产6nm显卡能与英伟达一战吗?
550095
9
旺仔小乔道歉信一股AI味
497840
10
《新神奇四侠》票房还不如超人
422617
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示