首页 综合要闻 > 内容

NVIDIA的H100GPU和AI狂热

时间:2023-08-08 10:38:01 来源:
导读 我们都非常清楚NVIDIA和最近席卷所有人的AI金矿。在这一切之中,有TeamGreen的H100AIGPU,它是目前最受欢迎的AI硬件,每个人都想拥有一个来

我们都非常清楚NVIDIA和最近席卷所有人的AI“金矿”。在这一切之中,有TeamGreen的H100AIGPU,它是目前最受欢迎的AI硬件,每个人都想拥有一个来满足他们的AI需求。

NVIDIAH100GPU是目前最好的,每个人都想要更多这样的芯片

本文并不是什么特别的新闻,而是向读者重点介绍了人工智能行业的现状,以及各公司如何围绕H100GPU打造自己的“未来”。

在我们进入本文的核心之前,有必要回顾一下。所以,在2022年初,一切都按照平常的发展顺利。然而,随着11月的到来,一款名为“ChatGPT”的革命性应用程序出现,为人工智能炒作奠定了基础。虽然我们不能将“ChatGPT”归为人工智能热潮的创始人,但我们当然可以说它起到了催化剂的作用。随之而来的是微软和谷歌等竞争对手,被迫加入人工智能竞赛,发布生成式人工智能应用程序。

你可能会说,NVIDIA是从哪里来的呢?生成式AI的骨干涉及大量的LLM(大型语言模型)训练期,而NVIDIAAIGPU在这方面发挥了重要作用。我们不会讨论技术规格和事实,因为这会让事情变得乏味且读起来毫无乐趣。然而,如果想了解具体细节,我们将在下面列出一个表格,重点介绍NVIDIA的每个AIGPU版本,可追溯到Tesla型号。

NVIDIAHPC/AIGPU

NVIDIATESLA显卡 NVIDIAH100(SMX5) NVIDIAH100(PCIE) NVIDIAA100(SXM4) NVIDIAA100(PCIE4) 特斯拉V100S(PCIE) 特斯拉V100(SXM2) 特斯拉P100(SXM2) TESLAP100

(PCI-EXPRESS) TESLAM40

(PCI-EXPRESS) TESLAK40

(PCI-EXPRESS)

图形处理器 GH100(料斗) GH100(料斗) GA100(安培) GA100(安培) GV100(伏打) GV100(伏打) GP100(帕斯卡) GP100(帕斯卡) GM200(麦克斯韦) GK110(开普勒)

流程节点 4纳米 4纳米 7纳米 7纳米 12纳米 12纳米 16纳米 16纳米 28纳米 28纳米

晶体管 800亿 800亿 542亿 542亿 211亿 211亿 153亿 153亿 80亿 71亿

GPU芯片尺寸 814平方毫米 814平方毫米 826平方毫米 826平方毫米 815平方毫米 815平方毫米 610平方毫米 610平方毫米 601平方毫米 551平方毫米

短信 132 114 108 108 80 80 56 56 24 15

TPC 66 57 54 54 40 40 28 28 24 15

每个SM的FP32CUDA核心 128 128 64 64 64 64 64 64 128 192

FP64CUDA核心/SM 128 128 32 32 32 32 32 32 4 64

FP32CUDA内核 16896 14592 6912 6912 5120 5120 3584 3584 3072 2880

FP64CUDA内核 16896 14592 3456 3456 2560 2560 1792年 1792年 96 960

张量核心 528 第456章 第432章 第432章 640 640 不适用 不适用 不适用 不适用

纹理单位 528 第456章 第432章 第432章 320 320 224 224 192 240

升压时钟 待定 待定 1410兆赫 1410兆赫 1601兆赫 1530兆赫 1480兆赫 1329兆赫 1114兆赫 875兆赫

TOP(DNN/AI) 3958上衣 3200顶 1248个TOP

2496个稀疏TOP 1248个TOP

2496个稀疏TOP 130顶 125首 不适用 不适用 不适用 不适用

FP16计算 1979万亿次浮点运算 1600万亿次浮点运算 312TFLOP

稀疏的624TFLOP 312TFLOP

稀疏的624TFLOP 32.8TFLOPs 30.4TFLOPs 21.2TFLOPs 18.7TFLOPs 不适用 不适用

FP32计算 67TFLOP 800万亿次浮点运算 156TFLOP

(标准19.5TFLOP) 156TFLOP

(标准19.5TFLOP) 16.4TFLOPs 15.7TFLOPs 10.6TFLOPs 10.0TFLOPs 6.8TFLOPs 5.04TFLOPs

FP64计算 34TFLOP 48TFLOP 19.5TFLOP

(标准为9.7TFLOP) 19.5TFLOP

(标准为9.7TFLOP) 8.2TFLOPs 7.80TFLOPs 5.30TFLOPs 4.7TFLOPs 0.2TFLOPs 1.68TFLOPs

内存接口 5120位HBM3 5120位HBM2e 6144位HBM2e 6144位HBM2e 4096位HBM2 4096位HBM2 4096位HBM2 4096位HBM2 384位GDDR5 384位GDDR5

内存大小 高达80GBHBM3@3.0Gbps 高达80GBHBM2e@2.0Gbps 高达40GBHBM2@1.6TB/s

高达80GBHBM2@1.6TB/s 高达40GBHBM2@1.6TB/s

高达80GBHBM2@2.0TB/s 16GBHBM2@1134GB/秒 16GBHBM2@900GB/秒 16GBHBM2@732GB/秒 16GBHBM2@732GB/秒

12GBHBM2@549GB/秒 24GBGDDR5@288GB/秒 12GBGDDR5@288GB/秒

二级缓存大小 51200KB 51200KB 40960KB 40960KB 6144KB 6144KB 4096KB 4096KB 3072KB 1536KB

TDP 700W 350W 400W 250W 250W 300W 300W 250W 250W 235W

这个问题仍然没有得到解答,为什么是H100?好吧,我们正在实现目标。NVIDIA的H100是该公司的最高端产品,提供强大的计算能力。有人可能会说,性能的提升会带来更高的成本,但公司往往会大量订购,而“每瓦性能”是这里的首要任务。与A100相比,Hopper“H100”带来了3.5倍的16位推理性能和2.3倍的16位训练性能,使其成为显而易见的选择。

所以现在,我们希望H100GPU的优越性在这里得到体现。现在,进入下一个部分,为什么会出现短缺?这个问题的答案涉及几个方面,首先是训练单个模型需要大量的H100。一个令人惊讶的事实是,OpenAI的GPT-4AI模型需要大约10,000到25,000个A100GPU(当时H100尚未发布)。

InflectionAI和CoreWeave等现代人工智能初创公司已获得H100巨额投资,总价值达数十亿美元。这表明,即使是训练一个基本到像样的人工智能模型,单个公司也需要大量的数据,因此需求是巨大的。

如果你质疑NVIDIA的做法,人们可以说:“NVIDIA可以增加产量来应对需求。”说起来比实际执行要容易得多。与游戏GPU不同,NVIDIAAIGPU需要大量流程,大部分制造工作都交给半导体巨头台积电(TSMC)。台积电是NVIDIAAIGPU的独家供应商,从晶圆收购到先进封装的各个阶段都处于领先地位。

H100GPU基于台积电的4N工艺,即5nm系列的改进版本。自从苹果公司之前将这种工艺用于其A15仿生芯片组以来,NVIDIA是该工艺的最大客户,但A16仿生芯片已经取代了这一工艺。在所有相关步骤中,HBM内存的生产是最复杂的,因为它涉及目前少数制造商使用的复杂设备。

NVIDIAH100采用CoWos封装

HBM供应商包括SK海力士、美光和三星,而台积电则限制了其供应商,我们不知道他们是谁。然而,除了HBM之外,台积电还面临维持CoWoS(晶圆上芯片)产能、2.5D封装工艺以及开发H100的关键阶段的问题。台积电无法满足英伟达的需求,导致订单积压达到新高,推迟到12月。

因此,当人们使用GPU短缺这个词时,他们指的是主板上某些组件的短缺或积压,而不是GPU本身。这些东西的全球制造有限……但我们预测人们想要什么以及世界可以建造什么。

我们省略了许多细节,但深入细节将偏离我们的主要目标,即向普通用户详细介绍情况。但就目前而言,我们认为短缺不会减少,反而预计会增加。然而,在AMD决定巩固其在人工智能市场的地位之后,我们可能会看到格局发生变化。

DigiTimes报道称,“台积电似乎对AMD即将推出的InstinctMI300系列的需求特别乐观,称其将占NvidiaCoWoS封装芯片总产量的一半”,这可能会在各公司之间分配工作量。不过,从Green团队过去的贪婪政策来看,这样的事情需要AMD提供严厉的报价。

总结我们的演讲,NVIDIA的H100GPU正在将人工智能炒作推向新的高度,这就是为什么它们会受到如此狂热的关注。我们的目的是通过让读者对整个场景有一个总体了解来结束我们的演讲。本文背后的想法归功于GPUUtilis;请务必也查看他们的报告。

标签: