手机号码:15920139670

 

座       机:   020-31605853

史上最强大的GPU工控机 AI服务器、深度学习工作站 Ampere A100 GPU

NVIDIA首席执行官Jensen Huang今天在他的厨房中发布了GTC 2020主旨演讲,根据当前的世界情况。该公司的GTC活动在过去几年中很少以游戏产品发布为特色,但经常以引领其发展的架构为特色。沃尔塔就是一个很好的例子,在那里我们并没有真正获得游戏卡,但是我们看到了导致图灵的原因。在今年的活动中,该公司展示了其新的Ampere架构,重点关注于提醒我们游戏和光线追踪的进步,同时强调了该架构的所有常规AI,机器学习和深度学习处理目标。听起来安培听起来会在某个时候归结为游戏,而不是Volta / Turing关系,后者在技术上是不同的架构和发布。

RTX和DLSS 2.0

RTX新闻不多,但也有一些。该公司使所有人想起了DLSS及其存在,并再次展示了DLSS 2.0。黄承认,引用“大多数人认为这行不通”,并说“第一代产品有点模糊”,然后通过对比显示了DLSS 2.0图像,并声称DLSS 2.0比1080p原生图像做得更好。 ”,我们假设使用DLSS讨论720p。

关于RTX和射线追踪产品,主要是重新强调了产品堆栈的存在,并对“我们刚推出时人们表示怀疑,但现在就在这里”感到有些高兴。公平地讲,当卡发行时,卡因伪造缺陷左右消亡,并且在发行同名卡后约55天没有任何RTX游戏,所以人们理所当然地持怀疑态度。就是说,NVIDIA已将行业的重点完全转移到了光线追踪上,并且比业内其他公司(如AMD)准备好早了,因此现在每个人都在争先恐后。我们会在此方面给予他们功劳。甚至新的控制台也在谈论射线追踪。

 

NVIDIA Omniverse

 NVIDIA还谈到了其Omniverse解决方案,这是一个装有RTX 8000的RTX服务器。这些功能都没有采用新的GPU架构,但是该公司确实展示了一种完全可玩的基于物理的球技游戏(类似于Spectraball等经典游戏)。相机的运动让人有些讨厌,但是图形是重点。 

NVIDIA安培

NVIDIA还发布了其通常的“全球最大GPU”公告,其中包括NVIDIA Ampere和A100处理器板。它是为数据中心和企业使用而构建的,它不是游戏产品,但最终会融入游戏产品中。值得一提的是,它是该领域的重大进步。

NVIDIA Specs A100

到目前为止,大多数人都看到黄色的夹子将木板从烤箱中拉出。我们在今天的视频主题演讲中了解了有关该板的更多信息:A100处理器板重50磅,通过新的NVLink 600GB / s接口托管8个GPU,并具有6个开关。一些有趣的有趣事实包括连接所有硬件的1公里的铜走线和将其固定在一起的100万个钻孔。考虑到NVIDIA非常喜欢RTX卡中的螺丝钉,最后一个事实并不令人感到意外。NVIDIA还指出,它由30,000多个组件组成,所以它们是一些繁忙的SMT生产线,并且引用了“有史以来制造在一台计算机上最多的晶体管”的信息。

NVIDIA的Ampere公告还采用了新的“ MIG”架构,或用于“弹性GPU计算”的多实例GPU。在使用有点紧张的飞船类比之后,Huang解释说,MIG允许将每个A100 GPU分成1个整体实例(因为现在使用的大多数卡),或者分为7个实例以用于隔离的应用程序或隔离的用户。对于数据中心而言,这里的含义是,您现在可以将廉价的访问权限出售给不需要那么多功能但又不需要独立GPU托管该低成本用户的应用程序的较少计算硬件。他们只是卡上的子用户,因此,例如,如果您是亚马逊,您可能最终会向一家大型AI公司出售6个实例,并向一个大学生出售一个实例,而仍然每个人都可以在同一个人上运行A100板。

Ampere的重点是推理和训练,将其划分为较小的GPU似乎是其速度增长之外的主要卖点。NVIDIA表示,数据中心的架构可以将较小的GPU分区用于“横向扩展”应用程序,或者将较大的GPU实例用于“纵向扩展”应用程序。

对于那些可能在人工智能,深度学习或机器学习方面做得更多的观众,我们将介绍NVIDIA提供的统计数据:

NVIDIA的性能幻灯片仅包含峰值性能的数据标签,但大多数峰值都接近持续的平均值,而且在GamersNexus上,我们承认甚至还不确定大多数使用此卡的研究人员会在规格中寻找什么。这不是我们的覆盖范围。对于给出的数字,NVIDIA声称A100 FP64的双精度性能为20 TFLOP,而带有FP64的V100 Volta则为8 TFLOP。假设采用相同的测量方法,这显然是一个很大的进步,但是如何将其转化为实际性能则取决于应用程序。游戏当然不会线性地将TFLOPS转换为FPS或帧时间,但这不在我们的研究范围之内。Tensor Float性能在FP32张量浮子的V100上列出为16个TFLOP,在A100上列为160TFLOP,对于FP32张量浮子在310 TFLOPs峰值处进行了稀疏数据优化。

对于FP16,NVIDIA注意到A100的备用数据性能为625,非备用性能为310 TFLOP,V100为125。NVIDIA单独指出,大多数人在这一领域的工作中使用FP32,因此其重点是FP32和不是FP16。

NVIDIA声称INT8性能是“ A100是第一个超过1 petaflop的处理器”,这标志着A100的稀疏峰值为1250 TFLOP,非稀疏的峰值为625,并以60 TFLOP的V100作为INT8的参考。点。

NVIDIA使用语音识别演示程序根据发出的声音识别鸟类,主要以此为例,说明实例在A100卡上拆分或组合后实例如何处理数据。在所有7个MIG作为单个GPU工作的情况下,NVIDIA注意到每秒500个查询,而与Volta的每秒80个相比。

DGX

下一个重大公告是DGX,这是NVIDIA出售给企业客户的微型超级计算机。实际上,我们已经看到绝对不是DGX的零件是在绝对不是Cooler的Master上制造的,而新产品则使用与上一代产品相同的金网面板。

NVIDIA的新DGX A100解决方案是DGX系列的第三代产品,NVIDIA表示已针对“培训,数据分析和推理”进行了优化。由于DGX具有8个NVIDIA A100 GPU,因此可以为多达56个同时用户实例化,也可以用作8个GPU。该机器具有9个Mellanox CX6互连,每个NIC的速率为200Gbps。Mellanox是NVIDIA最近收购的一家公司,因此这种合并是可以预见的。对于CPU,NVIDIA利用了AMD的64核Epyc Rome处理器,每个DGX盒总共运行128个内核的两个Rome CPU,其中包括1TB的内存。

新的NVLink也以600GB / s的速度出现,但是我们需要注意,这与游戏卡上的NVLink明显不同。有一个较慢的精简版游戏,而此处提供的600GB / s解决方案价格昂贵,并且目标比游戏多GPU应用程序中的工作量重得多。我们可能不会看到用于SLI的600GB / s NVLink桥接器。

DGX的其他规格包括15TB PCIe Gen4 NVMe SSD存储和4.8TB / s的双向带宽。

DGX的价格为199,000美元,考虑到其处理能力,它实际上比以前的DGX解决方案便宜。如果您在购买RTX 2080后感到买家对2070超级发布会感到后悔,可以想象一下,购买一台价值40万美元的微型超级计算机,而听说这台新的超级计算机是20万美元。

这些进步对于目标客户而言都是值得注意的,对于任何对减少土地开发感兴趣的人来说,最明显的差异之一就是具有高性能计算机的数据中心所需空间的显着减少。当然,随着成本的降低,最终结果更有可能的是,开发人员要么针对功能强大的硬件运行优化程度较低的代码,要么会为其寻找其他用途。理想情况下,我们会看到缩小了空间。

NVIDIA举了一个25机架的AI数据中心的示例,该数据中心的价格为1100万美元,需要630kW的运行功率,并指出它拥有50个用于训练的DGX-1系统和600个用于推理的CPU系统。请注意,那是原始的DGX,所以距此一代已经过去了两代。

最新的DGX A100解决方案将以100万美元的价格部署1个28kW的机架,并大大减少空间。NVIDIA使用PageRank算法和通用的抓取数据集来测试这两者的性能,注意到2.6TB的数据和1280亿个边缘仅占互联网的一小部分。

NVIDIA表示,通常需要3000台服务器和105个机架来分析每秒520亿条边,而通过NVLink(用于一台巨型DGX)分析四台DGX A100来每秒处理6880亿条边。然后,Huang做出通常的“购买越多,保存的评论越多”,他的笑声表明他在开玩笑

NVIDIA Edge AI

NVIDIA还发布了NVIDIA EGX A100解决方案,该解决方案似乎将重点放在IOT的安全性和经过身份验证的启动解决方案上。

EGX带有以板载100Gb / s以太网或infiniband形式安装在卡上的Mellanox ConnectX 6网络解决方案。两者共同构成了“ EGX”设备的独特之处。NVIDIA指出其专注于自动化发展和培训,并强调了与BMW和EGX的合作关系。NVIDIA表示,宝马每天制造40种带有100种选择的汽车模型,从2000个供应商那里进口3000万个原始零件,并将这些零件发送给全球30家工厂。黄说,宝马可以每56秒钟组装一辆汽车,这出于其他许多原因是很疯狂的,并提到了即时制造,即随着旧箱子的离开,新箱子的零件被丢弃。机器人技术涉及到所有这一切,NVIDIA正在与BMW合作培训未来的机器人技术部署。