当前位置：首页 > 光粒网 > 软件 > 正文

谷歌云搭载英伟达H100 GPU的运算服务正式上线

2023-12-23 17:10:37　来源：激光网原创　

生成式人工智能暴红一整年，Nvidia数据中心GPU产品H100成为整个IT市场追捧的重要物资，不只是服务器厂商推出多款设备，大型公有云业者也陆续发布搭配这款GPU的运算服务。以正式上线的时间为基准，AWS今年6月底正式推出Amazon EC2 P5，微软Azure在3月发布ND H100 v5,8月在美国东部与美国中南部这两个地区的资料中心正式开始提供这项GP运算服务，若是有意采用的企业与组织，需到Azure网站填写需求表单、输入预计执行的虚拟机器数量、虚拟机保留期间、用途，以及企业与组织的员工规模，再由相关地区的微软业务团队与其联系、洽谈后续的试用。到了11月，微软Azure发布新的GPU运算服务NC H100 v5系列，能用于中型的人工智能模型的训练与生成式人工智能推论，以及主打支持机密运算特色的GPU运算服务NCC H100 v5系列，这两款服务目前都处于公开预览测试的状态。

至于谷歌云，在5月举行的Google I/O大会期间，预告将推出搭配Nvidia H100的运算服务A3，由于此服务当时处于封闭预览状态，企业与组织若要进行评估，需填写线上表单申请试用。

到了8月底举行的Google Cloud Next大会期间，该公司宣布A3将于下个月正式推出，支持大型人工智能模型的处理。而在这项运算服务的配置与特色的描述，大致与先前相同，但也补充一些细节，例如，搭配的英特尔第四代Xeon Scalable处理器会是2颗，而网路效能改善源于IPU的部分，谷歌云此时将这项连线加速装置称为Titanium网络卡。除此之外，他们也特别公布一个使用案例：因推出生成式人工智能绘图应用而举世闻名的Midjourney，他们的平台采用谷歌云今年新推出的两个GPU运算服务，其中的A3可提供2倍的图片生成速度。

经过几个月的等待，A3最近终于正式开放供应。根据Google Cloud release notes的12月21日公告，A3在Compute Engine上架，目前在亚太、欧洲、北美共5个区域的数据中心，均可选用A3。

A3本身配备那些新技术? 就运算层面而言，它搭配8个Nvidia H100 GPU，提供3倍的运算吞吐能力，而GPU之间的资料传输，会透过Nvidia发展的新一代高速I/O接口：NVLink 4.0与第四代NVSwitch，双向传输带宽可达3.6 TB/s; 处理器与内存也升级到新一代规格，预计搭配英特尔第四代Xeon Scalable，以及2TB容量的DDR5-4800; 在网络层面上，A3采用他们订制设计的基础设施处理器，亦即英特尔的IPU ASIC E2000，提供200 Gbps的网络传输界面，当中导入IPU硬件卸载、特制的跨服务器GPU通讯堆栈，以及支持Nvidia集结通讯程序库最佳化处理，能将A3的网络带宽提升至10倍。

采用 Nvidia H100 之余，由于 A3 设置在谷歌自诩最先进的网络环境，因此，也连带获得多种效益。

首先，在该公司现行的GPU运算服务当中，A3在IPU的帮忙之下，云端运算服务底层服务器GPU之间的数据传输，不需经过CPU，而且源自其他虚拟机的网路与数据流量，可跨越个别网络介面传输，因此，相较于谷歌云既有的GPU运算服务A2，新登场的A3网络带宽可提升至10倍，而且能提供低延迟与高稳定的连线。

在底层交织网络的配置上，A3坐落在谷歌云发展的数据中心网络环境Jupiter，可支持数万个GPU互连，本身也能使用可完整运用所有带宽、支持重新设置的光纤网络连接方式，提供随需调整网络拓朴的弹性，可针对各种结构的工作负载，提供足够的带宽，与费用较高的市售交织网络相比，Jupiter能带来相近的使用成效，但具有更低的总体持有成本。

关于人工智能运算效能的表现上，A3最大可供应26 ExaFlops的处理能力，可显著减少训练大型机器学习模型的所需时间与成本。若用在人工智能推论，A3的成效更为显著，若以A2的运算效能为基准，A3领先幅度可达到30倍。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com