图拉丁吧 关注:7,772,302贴子:130,272,868
  • 9回复贴,共1

挂个游戏领域大神,顺便讲讲深度学习电脑该怎么配。

取消只看楼主收藏回复

楼主看到了这两个帖子,瞬间闻到了大量jy的味道,决定过来水一发,讲讲深度学习的电脑该怎么配。
原帖一句高U低显肯定是不对的,游戏领域大神的含金量自然不必多说。
再补充一句,强烈不建议买多张专业矿卡p102 p106 40hx等等多张组多卡,然后挑战单卡,会亏成麻花。
帖子会从两个方面讲起,用户角度和炼丹师角度。
一方面是stable diffusion画赛博猫娘和llm与赛博猫娘对话。
另一方面是llm大模型多卡训练机该怎么配置。
lz的3647是大船靠岸前配的,现在亏麻了,2800的cpu,900块点击就送。
这是lz第三次发帖,系统杀疯了。
#台式电脑##显卡#




IP属地:北京来自Android客户端1楼2023-10-07 08:39回复
    秀新风,不打搅,来点人看看孤单的lz吧


    IP属地:北京来自Android客户端2楼2023-10-07 08:44
    收起回复
      先聊聊m40和p40这两个老东西,尤其是p40这个老东西,之前翻倍的涨,把人当傻子坑。
      lz的建议是不要碰,不要被他24g显存迷惑了。
      现在还行,p40前一阵子涨到1200,不知道是怎么敢的。



      IP属地:北京来自Android客户端5楼2023-10-07 08:57
      收起回复
        为什么不建议买那两个老古董,m40 p40的核心构架很老了,很可能在不就的将来不再被支持。
        这个支持不是显卡驱动方面,而是深度学习框架方面。
        老黄为每个卡设置了一个叫计算能力的参数,这个参数不是根据显卡性能制定的,而是更偏向于显卡支持的特性与显卡架构。
        m40 p40的计算能力在不就的将来将不会再被支持,如果你只是玩玩当然不用担心这条。
        m40和p40的核心不支持fp16/bf16,在与20系以及以上的显卡比较的时候,不仅会出现大幅度落后,显存优势也很微弱。
        在推理模型的时候(sd或者llm),使用bf16或者fp16会节省一半的显存,而两个老古董是不支持这个特性的。


        IP属地:北京来自Android客户端6楼2023-10-07 09:09
        收起回复
          还忘记了一个老古董k80,这东西号称是24g显存 实际上这东西是双芯卡 12g*2,大部分情况下只能用到一半的性能和一半的显存。
          这东西我想不到任何情况会去推荐他。


          IP属地:北京来自Android客户端7楼2023-10-07 09:12
          收起回复
            继续更新。
            CPU是没有太多要求的,唯一的硬性要求是CPU必须有AVX2指令集,现在游戏中相当大的一个比例也需要这个指令集。
            因此E5 V1/V2是绝对不建议买的,同理一代锐龙也建议入手。虽然E5 V3/V4也有AVX2指令集,但是仍然不建议入手。
            如果你用来训练模型,按照你不同的预处理方式,对CPU的压力可能是天差地别。例如笔者跑语音识别的时候6238T满载下喂不饱半张2080Ti,然而在搞LLM的时候,CPU基本毫无压力。
            另外建议相比与偏重于多核性能,我更建议的是均衡多核性能和单核性能。深度学习使用的python语言默认下只支持单核,需要用一颗核心来运行程序的主要流程,对单核压力还是不小的,笔者的6238T有时候会出现单核瓶颈。
            说了这么多CPU还是比较好选择的,选择买的起的消费级就可以,如果是多卡就看看3647和第二代以上的epyc平台。
            大小核对深度学习的影响远小于专业软件,如果你但凡打一点游戏,就可以放心选择。
            如果只是想跑模型,CPU只要是支持AVX2指令集就可以。毕竟主流深度学习框架pytorch和tensorflow都默认要求CPU支持AVX2指令集了。


            IP属地:北京15楼2023-10-07 11:02
            收起回复
              上面有人提到了nvlink,我就来说说nvlink吧。
              nvlink是一个接口,也是一个协议。游戏卡只能使用nvlink接口走sli协议来使用双卡打游戏。
              显存叠加这个步骤相当于把一个任务装在两个篮子里(显卡),一个篮子装不下就有两个选择。
              使用nvlink协议,把两个篮子变成一个大篮子。
              另一种方式就是把任务切割成两份,分别装在两个篮子里。
              大部分的任务很难切割,但是ai模型高度对称解藕,是可以进行完美切割的。
              因此不需要nvlink便可以实现显存叠加。


              IP属地:北京来自Android客户端25楼2023-10-07 11:58
              回复
                但是nvlink也是有用的,但是作用有限,因为pcie版本的显卡nvlink只支持双卡。sxm版本的nvlink就有用多了。
                nvlink的作用是提供了一种更快的显卡间高速通信方式,是非常有用的。多卡间需要需要使用nvlink或者pcie来交换梯度,梯度是非常大的。双卡下大约10-20%左右的时间是用来同步数据上的。
                nvlink可以大大的加快这个进程,提高显卡利用率。然而nvlink使用条件很苛刻,需要代码的支持,大部分情况下是用不到的。
                然而,上面的情况只针对于训练模型。
                如果你只是用多卡来跑大语言模型,或者stable diffusion画图,nvlink对你作用是0,用pcie就好了。
                另外显卡最低保证提供pcie3.0 *8的通信带宽,低于这个数值会严重影响显卡性能的发挥。


                IP属地:北京27楼2023-10-07 12:30
                回复
                  选显卡了!敲黑板!
                  这里面如果要说硬性规定,只有一个最低要求显卡显存至少为6G。
                  无论是你用来跑模型、还是训练模型,6G都是最低标准,4G显存任何情况下都会很蹩脚。
                  首先是无奈级、这个级别只适合没有显卡或者显卡显存是4G的玩家选购,P104-100 1070换皮,价格只有120块。P102要高达250块,lz是不建议在这种辣鸡级上投入这么多的钱的。
                  预算再高一点,笔者建议优先选择20系的二手卡(矿卡),不需要魔改就可以玩游戏,也有高贵的tensorcore。相比各种需要魔改散热的矿卡好很多。
                  20系中笔者最推荐2080Ti,笔者推荐它的原因不是因为可以改成22G显存,而是它搭载了20系最良心的tensorcore,也拥有11G的显存。
                  多说一点2080Ti,小黄鱼上的2080Ti涌现了一大批涡轮公版卡。这些卡分为残血供电和满血供电、残血核心(TU102 300)和满血核心(TU102 300A)、残血显示接口和满血显示接口。
                  现在SD和LLM优化显存占用的技术已经非常成熟了,大于8G的显存很难成为瓶颈了,再画超大的图时候也可以使用分块渲染。此时显卡核心才是真正决定显卡性能的地方,支持tensorcore的20、30、40系对于旧卡可以发挥巨大的优势。
                  笔者的显卡配置就是2080Ti(11G) *2,另外一提楼主还有一张tesla T4正在路上。
                  预算再高就可以考虑3090矿卡或者高贵的40系了,按照自己买得起的选就可以了。


                  IP属地:北京35楼2023-10-07 19:41
                  收起回复
                    所有显卡除了平民级的2080Ti值得一提以外,另一块值得一提的就是4090这个怪物了。
                    老黄为4090配备了恐怖的tensorcore,tensorcore的规模fp16/bf16性能甚至可以与A100正面对标。
                    4090虽然没有A100恐怖的80G hbm显存,但是在性能上已经可以威胁到A100的地位了,这对于想来显卡地位分明的老黄是不可以接受的,老黄决定给它来致命一刀。
                    这一刀就是!老黄把4090的nvlink给砍掉了!
                    你不会以为这个是正确答案了吧?
                    老黄致命的一刀是砍在了pcie p2p上,4090是第一张不支持pcie p2p的显卡!nvlink只能改善两张卡之间的通信性能,而pcie p2p的消失则影响到了所有显卡间的通讯性能!
                    目前看到的4090的8卡机,除了矿机以外,都遇到了明显的性能瓶颈,显卡利用率上不去。甚至在早期多卡4090会造成严重的兼容性问题,不知道这点现在是否有改善。
                    老黄是懂泾渭分明的,这一刀下去以后,4090只能安心当好最强的深度学习单卡(在所有买的到的显卡中),多卡性能被砍没了。


                    IP属地:北京36楼2023-10-07 19:57
                    收起回复