460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理( 二 )


MLU-Link具备丰富的互联特性 , 突破PCIe带宽和互联的瓶颈 , 相比思元270芯片通过PCIe并行的通讯方式 , 带宽提高19倍 。

460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理
文章图片
▲思元290相较思元270并行通讯总带宽提升19倍
玄思1000配置8个对外互联的MLU-Link接口 , 支持跨系统互联构建MLUPOD 。 标准配置支持MLUPOD16、24、32 。

460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理
文章图片
▲玄思1000支持8个400GMLU-Link和2个200G网络接口 , 总带宽高达3600Gbps , 是传统异构服务器的2倍
在POD内部 , 所有思元290芯片均可通过MLU-Link多芯互联技术进行通讯 , 在带宽和延时方面实现了突破 。
在POD外部 , 通过玄思1000内置的网卡与其他系统进行通讯 , 实现了AI训练集群性能、扩展性和鲁棒性的协同提升 。

460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理
文章图片
▲POD内所有思元芯片通过MLU-Link全互联
除了标准配置的POD之外 , 在计算中心条件允许的前提下 , 通过MLU-Link多芯互联技术 , 可实现1024颗或更多思元290互联 , 不需要额外的网卡即可实现无缝加速 。
四、支持实现4个相互隔离的实例
不同场景下的AI训练对计算和存储的要求千差万别 , 如何提供更灵活也更稳定的服务 , 但同时让算力得到充分地利用 , 是AIDC面临的持续挑战 。
寒武纪虚拟化技术vMLU , 支持在思元290上实现4个相互隔离的AI计算实例 , 每个实例独占计算、内存和编解码资源 。
实例之间的硬件资源互不干扰 , 即使在虚拟化环境下 , 仍可保持90%以上的高效率 , 帮助客户充分利用硬件资源 。

460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理
文章图片
▲思元290上实现4个相互隔离的AI计算实例
vMLU还能帮助思元290芯片提供更好的灵活性 。 通过热迁移技术 , 云管理员可将正在运行的AI负载及其应用程序移动到另外一台主机上 , 从而平衡整个AIDC的负载 , 并实现更好的容灾功能 。

460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理
文章图片
▲vMLU热迁移
五、搭配寒武纪Neuware训练软件栈 , 支持多种应用训练推理
寒武纪Neuware软件栈为思元290芯片提供完善的软件及应用生态 , 支持业界主流的TensorFlow和PyTorch等深度学习框架 , 用户不需要改变使用习惯 , 即可在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理 。
其中 , 基于Horovod分布式训练框架与MLU-Link多芯互联技术相互配合 , 使思元290在单机多卡、多机多卡的场景下达到业界领先的训练加速比 。
寒武纪Neuware提供完善的开发工具包和社区支持 , 帮助用户在思元290芯片进行方便、灵活的定制开发及部署工作 。 配合BANG智能编程语言及配套调试工具 , 用户可以为自定义的算法提供最佳性能调优 。

460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理
文章图片
▲寒武纪Neuware软件栈
结语:寒武纪已建立云边端一体生态
随着寒武纪首颗训练芯片思元290智能芯片及加速卡、玄思1000智能加速器训练产品线亮相 , 寒武纪已建立“云边端一体、软硬件协同、训练推理融合”的新生态 。
在完整产品体系搭建后 , 下一步 , 寒武纪不仅将面临研发方面的持续创新优化 , 也将迎来多样化的人工智能应用场景与需求的产品化考验 。
来源:寒武纪