usd是哪里的货币,usd是什么意思网络用语

  

  编辑:编辑部   

  

  【新智元简介】“组装”CPU,4nm显卡,世界上最快的AI超级计算机,游戏开发者的元宇宙。这次老黄的百宝箱里有什么?   

  

  今天老黄又穿着皮衣来了!   

  

  3月22日晚,英伟达GTC 2022开幕。   

  

     

  

  虽然没有熟悉的厨房,但这场战斗更加豪华。   

  

  Nvidia用Omniverse从里到外渲染新总部!   

  

     

  

  800亿个晶体管的Hopper H100   

  

  借助瑞星平台,英伟达推出了专为超级计算机设计的最新AI显卡Hopper H100。   

  

  与“只有”540亿个晶体管的前辈A100相比,Nvidia在H100中安装了800亿个晶体管,并采用了定制的TSMC 4纳米工艺。   

  

  也就是说H100会有更好的动力/性能特性,密度也会有一定程度的提升。   

  

     

  

  在计算能力上,H100的FP16、TF32和FP64的性能是A100的3倍,分别是2000 TFLOPS、1000 TFLOPS和60 TFLOPS。   

  

  此外,H100还增加了对FP8的支持,运算能力达到4000 TFLOPS,比A100快6倍。毕竟后者由于缺乏原生FP8支持,不得不依赖FP16。   

  

  内存方面,H100也会默认支持3TB/s带宽的HBM3,比A100的HBM2E高1.5倍。   

  

     

  

  H100支持的第四代NVLink接口可提供高达128GB/s的带宽,是A100的1.5倍;而PCIe 5.0的速度可以达到128GB/s,是PCIe 4.0的两倍。   

  

  同时,SXM版H100将TDP提高到700W,而A100为400W。而75%的功率提升,一般来说可以预期获得2到3倍的性能。   

  

  为了优化性能,Nvidia还推出了新的Transformer引擎,它会根据工作负载自动在FP8和FP16格式之间切换。   

  

  H100   

  

  A100 (80GB)   

  

  CUDA核心   

  

  16896   

  

  6912   

  

  张量核   

  

  528   

  

  432   

  

  超频频率   

  

  约1.78GHz   

  

  1.41GHz   

  

  内存储器   

  

  4.8Gbps HBM3   

  

  3.2Gbps HBM2e   

  

  存储带宽   

  

  3TB/秒   

  

  2TB/秒   

  

  FP32向量   

  

  60万亿次浮点运算   

  

  19.5万亿次浮点运算   

  

  FP64向量   

  

  30万亿次浮点运算   

  

  9.7万亿次浮点运算   

  

  (1/2 FP32)   

  

  INT8张量   

  

  最多2000   

  

  最多624   

  

  FP16张量   

  

  1000万亿浮点运算   

  

  312万亿次浮点运算   

  

  TF32张量   

  

  500万亿浮点运算   

  

  156万亿次浮点运算   

  

  FP64张量   

  

  60万亿次浮点运算   

  

  19.5万亿次浮点运算   

  

  树干   

  

  NVLink 4   

  

  18(900 GB/秒)   

  

  NVLink 3   

  

  2(600 GB/秒)   

  

  国家政治保卫局。参见OGPU   

  

  GH100   

  

  (814平方毫米)   

  

  GA100   

  

  (826平方毫米)   

  

  晶体管数量   

  

  八百亿   

  

  52亿   

  

  尖端扭转型室性心动过速   

>   

700W

  

400W

  

制造工艺

  

TSMC 4N

  

TSMC 7N

  

架构

  

Hopper

  

Ampere

  


  

Hopper架构全新的DPX指令,将为动态规划的计算速度带来高达40倍的提升。

  


  

在AI训练中,H100可以提供高达9倍的吞吐量。以Megatron 530B为基准,则可以提供16倍至30倍的推理性能。在3D FFT(快速傅里叶变换)和基因组测序等HPC应用中,则可提升6-7倍。

  


  

  


  

DGX服务器系统

  

第四代英伟达DGX服务器系统,将世界上第一个采用H100显卡构建的AI服务器平台。

  


  

DGX H100服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。

  


  

其中,每个服务器系统包含8个H100显卡,通过NVLink链接为单个整体,晶体管总计6400亿个。

  


  

在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍。

  


  

  


  

此外,每个DGX H100系统还包括两个NVIDIA BlueField-3 DPU,用于卸载、加速和隔离网络、存储和安全服务。

  


  

8个NVIDIA ConnectX-7 Quantum-2 InfiniBand网络适配器提供每秒400 Gb的吞吐量来连接计算和存储模块――速度是上一代系统的两倍。

  


  

第四代NVLink与NVSwitch相结合,可在每个DGX H100系统中的每个GPU之间提供每秒900 GB的连接,是上一代的1.5倍。

  


  

而最新的DGX SuperPOD架构则可连接多达32个节点、总共256个H100显卡。

  


  

DGX SuperPOD可提供1 EFLOPS的FP8性能,同样也是前代的6倍。

  


  

  


  

世界上最快的AI超算

  

由576个DGX H100服务器系统和4608个DGX H100显卡组成的「Eos」超级计算机预计将提供18.4 EFLOPS的AI计算性能,比目前世界上最快的超算――日本的「富岳」快4倍。

  


  

对于传统的科学计算,Eos有望提供275 PFLOPS的性能。

  


  

  


  

Transformer Engine

  

作为新Hopper架构的一部分,将显著提高AI的性能,大型模型的训练可以在数天甚至数小时内完成。

  


  

传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将FP8应用在整个模型之中。

  


  

而Transformer Engine则可以在FP16和FP8之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度。

  


  

此外,Transformer Engine可以用2倍于FP16的速度打包和处理FP8数据,于是模型的每一层可以用FP8处理的数据都可以提升2倍的速度。

  


  

  


  

Grace CPU超级芯片

  

除了显卡,英伟达今天还推出了其首款基于Arm Neoverse架构的处理器――Grace CPU超级芯片。

  


  

它基于此前发布的Grace Hopper CPU+GPU设计,只不过把显卡换成了CPU。

  


  

据英伟达实验室估计,在使用同类编译器时,Grace CPU超级芯片性能可以提升1.5倍以上。

  


  

在技术规格上,可以概括为:

  


  

2个72核芯片,高达144个Arm v9 CPU核心采用ECC技术的新一代LPDDR5x内存,总带宽为1TB/sSPECrate 2017_int_base得分预计超过740900GB/s 一致性接口,比PCIe 5.0快7倍封装密度比DIMM解决方案提高了2倍每瓦性能2倍于当今领先的CPU

  

  


  

超级芯片中的两个CPU通过英伟达最新的NVLink「芯片到芯片」(C2C) 接口进行通信。

  


  

这种「裸晶到裸晶」和「芯片到芯片」的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。

  


  

  


  

Grace CPU超级芯片拥有更先进的能效和内存带宽,其创新的内存子系统由带有ECC的LPDDR5x内存组成。

  


  

LPDDR5x可以提供两倍于传统DDR5的带宽,同时还能使CPU加内存的功耗显著降低至500瓦。

  


  

相比之下,AMD的芯片在基准测试中的结果从382到424不等,且每个芯片的功耗最高可达280W(还不包括内存)。

  


  

此外,Grace CPU超级芯片与NVIDIA ConnectX-7 NIC一起提供了配置到服务器中的灵活性,可作为独立的纯CPU系统或作为具有1 个、2个、4个或8个基于Hopper显卡的加速服务器。

  


  

  


  

安培架构再添新品

  

今天,英伟达为笔记本电脑和台式机提供了七种基于Ampere架构的显卡――RTX A500、RTX A1000、RTX A2000 8GB、RTX A3000 12GB、RTX A4500和RTX A5500。

  


  

新的RTX A5500台式机显卡可实现出色的渲染、AI、图形和计算性能。其光线追踪渲染比上一代快2倍,其运动模糊渲染性能最高可提高9倍。

  


  

  


  

第二代RT核心:吞吐量高达第一代的2倍,能够同时运行光线追踪、着色和去噪任务。

  


  

第三代Tensor Cores:训练吞吐量是前一代的12倍,支持新的TF32和Bfloat16数据格式。

  

CUDA核心。比上一代的单精度浮点吞吐量高达3倍。

  


  

高达48GB的GPU内存:RTX A5500具有24GB的GDDR6内存,带有ECC(纠错码)。使用NVLink连接两个GPU,RTX A5500的内存可扩展至48GB。

  


  

虚拟化:RTX A5500支持NVIDIA RTX虚拟工作站(vWS)软件,用于多个高性能虚拟工作站实例,使远程用户能够共享资源,推动高端设计、AI和计算工作负载。

  


  

PCIe 4.0:带宽是上一代的2倍,加快了数据密集型任务的数据传输,如AI、数据科学和创建3D模型。

  


  

游戏开发者也有元宇宙了

  

已经在元宇宙拥有一席之地的Omniverse再次得到了加强。

  


  

  


  

本次大会上,英伟达发布了NVIDIA Omniverse的全新功能,使开发者能够更轻松地共享资产、对资产库进行分类、开展协作,并在全新游戏开发流程中部署AI来为角色制作面部表情的动画。

  


  

借助NVIDIA Omniverse实时设计协作和模拟平台,游戏开发者可以使用支持AI和NVIDIA RTX的工具,轻松构建自定义工具,以简化、加速和改进其开发工作流。其组件包括:

  


  

Omniverse Audio2Face,一款由NVIDIA AI驱动的应用,使角色艺术家通过音频文件生成高质量的面部动画。Audio2Face支持完整的面部动画,艺术家们还能控制表演的情感。有了Audio2Face,游戏开发者可以快速、轻松地为其游戏角色添加逼真的表情,促进玩家和游戏角色之间更强的情感连接,增强沉浸感。

  

Omniverse Nucleus Cloud现已开放抢先体验版,可实现Omniverse场景的一键式简单共享,无需在本地或私有云中部署Nucleus。通过Nucleus Cloud,游戏开发者可轻松地在内、外部开发团队之间实时分享和协作3D资产。

  

Omniverse DeepSearch是一项AI服务,现在可供Omniverse企业用户使用,它允许游戏开发者使用自然语言输入和图像来即时搜索其整个未标记的3D资产、物体对象和角色目录。

  

Omniverse Connectors实现第三方设计工具和Omniverse之间的「实时同步」协作工作流的插件。全新虚幻引擎5 Omniverse Connector允许游戏艺术家在游戏引擎和Omniverse之间交换USD和材料定义语言数据。

  

将数据中心转变为「AI工厂」不管是Hopper显卡架构还是AI加速软件,抑或是强大的数据中心系统。

  


  

所有的这些都将由Omniverse汇集起来,从而更好地模拟和理解现实世界,并作为新型机器人的试验场,即所谓「下一波AI」。

  


  

由于加速计算技术的发展,AI的进展惊人,人工智能已经从根本上改变了软件可以做什么,以及如何开发软件。

  


  

老黄表示,Transformer摆脱了对人类标记数据的需求,使自监督学习成为可能,而人工智能一跃以空前的速度发展。

  


  

用于语言理解的谷歌BERT,用于药物发现的英伟达MegaMolBART,以及DeepMind AlphaFold2都是Transformer带来的突破。

  


  

英伟达的AI平台也得到了重大的更新,包括Triton推理服务器、用于训练大型语言模型的NeMo Megatron 0.9框架,以及用于音频和视频质量增强的Maxine框架。

  


  

  


  

「我们将在未来十年再争取实现百万倍的算力提升,」老黄在结束他的演讲时说,「我迫不及待地想看看下一个百万倍会带来什么了。」

  


  

参考资料:

  

https://www.nvidia.cn/gtc-global/keynote/

相关文章