p106吧 关注:28,005贴子:262,821

回复:全网首测CMP 50HX 20G显存版本

取消只看楼主收藏回复

有人说也许是qwen和llama不同,所以又用llama的8B模型测试了一下,速度如图






IP属地:河北来自Android客户端28楼2025-04-02 00:15
回复
    看来跟是qwen还是llama没关系,50hx跑deepseek仍然是q8最快q4最慢,而且q8比q4快50%多


    IP属地:河北来自Android客户端29楼2025-04-02 00:17
    收起回复
      广告
      立即查看
      这是50hx 20g跑32b q4的速度,之前的推论已经说了,这个卡跑q4是最慢的,而且q8比q4速度快50%多,按照比例推算的话,两张50hx 20g跑32b q8的速度应该可以达到12tok/s


      IP属地:河北来自Android客户端30楼2025-04-02 00:29
      收起回复
        借了一张2080ti 22g用来测试,单卡能跑的模型都跑了,然后给我50hx 20g显存带宽超频到跟2080ti 22g相同的水平后,又做了测试,主要是测试q8量化的模型:
        按q8模型计算,2080ti 22g比50hx 20g的推理速度快18%,将50hx显存带宽超频到跟2080ti 22g相同后,推理速度差距缩小到11%,同时因为2080ti核心规模本来就比50hx大26%,这个速度差距我认为是正常的。
        结论就是跑q8模型可以发挥50hx 20g该有的理论性能水平,我查到两张2080ti 22g跑32b q8模型的推论速度大概是13tok/s,这样算的话,要是有两张50hx 20g跑32b q8,速度也能有11tok/s



        IP属地:河北来自Android客户端37楼2025-04-03 20:54
        回复