高通吧 关注:180,823贴子:4,687,029

真正的集大成者,再次标明未来的GPU方向!

只看楼主收藏回复

又到了我年年不会缺席的天顶星科技环节,作为通吧第一IMG吹,来和大家聊一聊这次IMG新发布的powerVR E-Series GPU,正如标题所说,指引了GPU的未来发展,毕竟移动端游戏历史,就是powerVR的历史嘛


IP属地:广东来自Android客户端1楼2025-05-10 23:57回复
    首先聊一下这次E-Series最核心的两个改进,那就是:
    Neural Cores(神经核)
    Burst Processors(爆发式处理器)
    不过在此之前,我们需要了解CPU GPU NPU作为AI计算的各自优劣势。
    CPU侧具有良好的可编程序和算子数量匹配,但是在计算能效、算力以及拓展性上不够好,基本上唯一优点就是可编程性,能够轻松调用实现计算任务。
    npu出现在手机上基本上十年了,但是一直的老大难问题就是可编程性太差,想要调用NPU完成计算任务太麻烦,更别提各家NPU差异巨大,带来了更严重的适配问题。
    所以,GPU是目前也是未来最好的AI需求的大规模矩阵计算的实现形式,能够实现较好的能效、算力规模、可编程性和灵活度。以及,Blackwell开始的整个行业向这神经渲染管线的行业趋势,未来哪家GPU没有集成矩阵加速器,那就是落后的


    IP属地:广东来自Android客户端2楼2025-05-11 00:06
    回复
      2025-07-24 11:27:15
      广告
      不感兴趣
      开通SVIP免广告
      现在,我们可以聊一聊E系列我认为最核心的改动,那就是USC集成矩阵加速器的设计。
      这次IMG对USC进行了巨大的改动,最关键就是放弃了A系列开始的SIMD128的设计,这是一个类GCN的设计,GCN是SIMD16X4 ,AXT是SIMD32X4,其优势就是相当高的算力密度,但劣势就是很高的指令延迟,很长的计算流水线,并且为了较高的ALU利用率,需要很大的片上缓存寄存器堆等资源。
      E系列的USC放弃了这种ALU设计,回到了SIMD32的设计,这显著改善了指令延迟和流水线长度,并且深度集成了矩阵加速器,无论是向量还是矩阵计算的指令延迟和流水线长度都是一样的,并且还实现了一样的可编程性,也就意味着其可以灵活的在矩阵和向量计算之间的转换,这对于神经渲染管线是极其重要的。
      再一点是,USC中的寄存器堆和片上缓存以及指令调度都是共享给FP/INT32 和Neural Cores的,也就带来了Burst Processors这个功能。



      IP属地:广东来自Android客户端3楼2025-05-11 00:17
      回复
        Burst Processor这个功能的核心就是通过指令调度优化和数据复用实现的更高计算效率,按IMG的说法,比D系列普遍提升了35%的能效,这个问题35%是单单指架构改进带来的效率提升,并不包括半导体制成工艺带来的提升。
        那么这个BP的功能核心是怎么实现的那?还记得上面说的USC里FP/INT 和Neural Cores共享寄存器堆和片上缓存吗?通过在计算单元内打通这些资源,在每条指令调度的时候,都会做片上缓存的数据复用的尝试,并且通过共享还能减少指令存储占据的缓存 ,以实现的近存计算,也就是尽量减少外部数据搬运来实现的,毕竟计算的功耗不高,但数据搬运回吃掉很多功耗,苹果M3中GPU的动态缓存改进就是这个原理,实现了相比M2,同规模下30%的平均性能提升,便可以说明这个技术的重要性。




        IP属地:广东来自Android客户端4楼2025-05-11 00:26
        回复
          剩下的就是一些不痛不痒的东西,当然,现在是媒体沟通会上放出的内容,E系列还需要IMG提供更多的资料,也就是还没有正式开发布会会,估计下周就有更多详细资料了
          唯一能说道说道的就是IMG给出了EXD这个配置,也就意味着有DX API的硬件支持,包括IMG也说了下半年会有E系列授权的产品出现,等着吧



          IP属地:广东来自Android客户端5楼2025-05-11 00:30
          回复
            终于等到了


            IP属地:江苏来自Android客户端6楼2025-05-11 00:31
            回复
              好文!大佬!


              IP属地:陕西来自iPhone客户端7楼2025-05-11 00:32
              收起回复
                这个是谁用的?发哥?


                IP属地:新疆来自Android客户端8楼2025-05-11 01:35
                收起回复
                  2025-07-24 11:21:15
                  广告
                  不感兴趣
                  开通SVIP免广告
                  我比较好奇,如果bw架构推动以后所有gpu都把tensor加到gpu内部,vulkan和dx能不能把ai超分做到自己的接口里所有架构都能通过接口统一调度由引擎或者自己的驱动提供的模型进行超分,还有插针。。。


                  IP属地:辽宁来自Android客户端9楼2025-05-11 01:46
                  收起回复
                    这个是谁用的?玄戒?


                    IP属地:广东来自Android客户端10楼2025-05-11 02:36
                    回复
                      还有个72-2304看看哪个头铁的上


                      IP属地:加拿大来自iPhone客户端11楼2025-05-11 02:51
                      回复
                        摩尔线程会用上这个么?


                        IP属地:上海来自Android客户端12楼2025-05-11 03:21
                        回复
                          猴王:正是在下


                          IP属地:安徽来自Android客户端13楼2025-05-11 05:27
                          回复
                            其实我比较感兴趣2017年之后移动端powerVR的进化史,它这些年是怎么东山再起的


                            IP属地:广东来自Android客户端14楼2025-05-11 08:36
                            回复
                              2025-07-24 11:15:15
                              广告
                              不感兴趣
                              开通SVIP免广告
                              苹果回归pvr的怀抱吧


                              IP属地:浙江来自Android客户端15楼2025-05-11 08:57
                              回复