借了一张2080ti 22g用来测试,单卡能跑的模型都跑了,然后给我50hx 20g显存带宽超频到跟2080ti 22g相同的水平后,又做了测试,主要是测试q8量化的模型:
按q8模型计算,2080ti 22g比50hx 20g的推理速度快18%,将50hx显存带宽超频到跟2080ti 22g相同后,推理速度差距缩小到11%,同时因为2080ti核心规模本来就比50hx大26%,这个速度差距我认为是正常的。
结论就是跑q8模型可以发挥50hx 20g该有的理论性能水平,我查到两张2080ti 22g跑32b q8模型的推论速度大概是13tok/s,这样算的话,要是有两张50hx 20g跑32b q8,速度也能有11tok/s

