您所在的位置:首页 - 艺术 - 正文艺术

基础设施建设白皮书年

奚诗百科 奚诗百科 07-27 【艺术】 821人已围观

摘要今天分享的是【AIDC基础设施建设白皮书(2024年)】报告出品方:超云&amp西云算力AIDC计算设备选型原则随着人工智能和大数据技术的飞速发展,AIDC作为支撑这些技术的重要基础设施,对服务器计算设备的需求日益增长,AIDC扮演着智能算力的物理载体角色,需要高性能的服务器来处理海量数据,对其底层硬件设备的方方面面提出了极高的要求,针对其选型我们可以考虑以下几个关键要素:一款先进的AI服务器需要搭配最先进的CPU芯片,先进的CPU芯片不仅能够提供强大的基础算力,而且其内置的A1加速技术

今天分享的是【AIDC基础设施建设白皮书(2024年)】报告出品方:超云&amp西云算力

AIDC计算设备选型原则

随着人工智能和大数据技术的飞速发展,AIDC作为支撑这些技术的重要基础设施,对服务器计算设备的需求日益增长,AIDC扮演着智能算力的物理载体角色,需要高性能的服务器来处理海量数据,对其底层硬件设备的方方面面提出了极高的要求,针对其选型我们可以考虑以下几个关键要素:

一款先进的AI服务器需要搭配最先进的CPU芯片,先进的CPU芯片不仅能够提供强大的基础算力,而且其内置的A1加速技术更是能够大幅度提高A1的计算效率。不但如此,先进的芯片还能支持更多的PCle扩展和更大容量的内存,可为A服务器提供更多的可能性。

异构加速芯片是A1训练推理的核心算力来源,常见的异构加速芯片有GPU、FPGA.ASIC,AI训练中主要用到的是GPU架构的芯片。随着A技术的发展,市场上各种各样的A1加速产品层出不穷,其中NVIDIA的GPU产品在市场占据主流地位,AMD、Intel也有自己的产品,国产GPU也涌现出了很多厂商,例如异腾、昆仑芯、寒武纪、天数等,基础设施建设白皮书年

由于A训练推理中会涉及大量的GPU之间的IO交互,因此对GPU之间的通讯效率有着较高的要求,为了解决该问题可以采用PCleSwitch来将多个GPU互联,根据连接方式的不同可以形成多种拓扑模式,可针对不同的A算法通讯需求进行灵活调整优化。但是面对超大规模的A训练,即便是PCleGen5的带宽也略显不足,为了解决该问题不同厂商提出了不同的解决方案,其中NVIDIA的NVLink NVSwitch方式是当前市面上的主流方案基于该方案可以大幅度提高GPU点到点之间的通讯带宽,最高可达900GB/S。

扩展性也是一款AL设备的重要要素,在A1训练推理中涉及多个节点并行时需要通过网络进行互联,对网络的延迟和带宽提出了很高的要求。这就需要A1设备本身具有较高的扩展性来适配对应的网卡,当前主流的A1网络一般采用NDR网络,对应的需要PClex16的扩展插槽,基于现在主流的网络设计,需要在满足满配8张GPU的情况下仍能提供4~5个PClex16的扩展插槽。

散热也是一款A1设备的重要一环,现在GPU的功耗动辄350W以上,整机满配8卡并搭配高端GPU的情况下往往会达到整机功耗400OW以上,对散热性能提出了极高的要求良好的散热系统不仅能够提升整机的性能,而且能够保证整机长时间稳定运行

综上所述,AIDC对服务器计算设备的选择要求非常高,其高性能、高扩展和高功率散热方案等要求不仅反映了当前技术发展的趋势,也体现了对未来计算需求的预测和准备。随着人工智能和大数据技术的不断进步,对服务器计算设备的需求将继续增长,AIDC将成为推动科技创新和产业升级的重要力量。

免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系

Tags: 基础设施建设白皮书年

icp沪ICP备2023024866号-6 icp粤公网安备 44030902003287号
取消
微信二维码
支付宝二维码

目录[+]