【图片】真正的集大成者，再次标明未来的GPU方向！【高通吧】

07月24日漏签0天

高通吧关注：180,823贴子：4,687,029

1 2 下一页尾页
27回复贴，共2页
，跳到页

<返回高通吧

真正的集大成者，再次标明未来的GPU方向！

只看楼主收藏回复

又到了我年年不会缺席的天顶星科技环节，作为通吧第一IMG吹，来和大家聊一聊这次IMG新发布的powerVR E-Series GPU，正如标题所说，指引了GPU的未来发展，毕竟移动端游戏历史，就是powerVR的历史嘛

送TA礼物

IP属地:广东

来自Android客户端1楼2025-05-10 23:57回复

首先聊一下这次E-Series最核心的两个改进，那就是：
Neural Cores（神经核）
Burst Processors（爆发式处理器）
不过在此之前，我们需要了解CPU GPU NPU作为AI计算的各自优劣势。
CPU侧具有良好的可编程序和算子数量匹配，但是在计算能效、算力以及拓展性上不够好，基本上唯一优点就是可编程性，能够轻松调用实现计算任务。
npu出现在手机上基本上十年了，但是一直的老大难问题就是可编程性太差，想要调用NPU完成计算任务太麻烦，更别提各家NPU差异巨大，带来了更严重的适配问题。
所以，GPU是目前也是未来最好的AI需求的大规模矩阵计算的实现形式，能够实现较好的能效、算力规模、可编程性和灵活度。以及，Blackwell开始的整个行业向这神经渲染管线的行业趋势，未来哪家GPU没有集成矩阵加速器，那就是落后的

IP属地:广东

来自Android客户端2楼2025-05-11 00:06

不感兴趣

开通SVIP免广告

现在，我们可以聊一聊E系列我认为最核心的改动，那就是USC集成矩阵加速器的设计。
这次IMG对USC进行了巨大的改动，最关键就是放弃了A系列开始的SIMD128的设计，这是一个类GCN的设计，GCN是SIMD16X4 ，AXT是SIMD32X4，其优势就是相当高的算力密度，但劣势就是很高的指令延迟，很长的计算流水线，并且为了较高的ALU利用率，需要很大的片上缓存寄存器堆等资源。
E系列的USC放弃了这种ALU设计，回到了SIMD32的设计，这显著改善了指令延迟和流水线长度，并且深度集成了矩阵加速器，无论是向量还是矩阵计算的指令延迟和流水线长度都是一样的，并且还实现了一样的可编程性，也就意味着其可以灵活的在矩阵和向量计算之间的转换，这对于神经渲染管线是极其重要的。
再一点是，USC中的寄存器堆和片上缓存以及指令调度都是共享给FP/INT32 和Neural Cores的，也就带来了Burst Processors这个功能。

IP属地:广东

来自Android客户端3楼2025-05-11 00:17

Burst Processor这个功能的核心就是通过指令调度优化和数据复用实现的更高计算效率，按IMG的说法，比D系列普遍提升了35%的能效，这个问题35%是单单指架构改进带来的效率提升，并不包括半导体制成工艺带来的提升。
那么这个BP的功能核心是怎么实现的那？还记得上面说的USC里FP/INT 和Neural Cores共享寄存器堆和片上缓存吗？通过在计算单元内打通这些资源，在每条指令调度的时候，都会做片上缓存的数据复用的尝试，并且通过共享还能减少指令存储占据的缓存，以实现的近存计算，也就是尽量减少外部数据搬运来实现的，毕竟计算的功耗不高，但数据搬运回吃掉很多功耗，苹果M3中GPU的动态缓存改进就是这个原理，实现了相比M2，同规模下30%的平均性能提升，便可以说明这个技术的重要性。