460亿个晶体管！寒武纪首颗7nm AI芯片亮相，全面支持训练和推理( 二 ) 芯东西（公众号：aichip001）编

MLU-Link具备丰富的互联特性，突破PCIe带宽和互联的瓶颈，相比思元270芯片通过PCIe并行的通讯方式，带宽提高19倍。

文章图片
▲思元290相较思元270并行通讯总带宽提升19倍
玄思1000配置8个对外互联的MLU-Link接口，支持跨系统互联构建MLUPOD 。标准配置支持MLUPOD16、24、32 。

文章图片
▲玄思1000支持8个400GMLU-Link和2个200G网络接口，总带宽高达3600Gbps ，是传统异构服务器的2倍
在POD内部，所有思元290芯片均可通过MLU-Link多芯互联技术进行通讯，在带宽和延时方面实现了突破。
在POD外部，通过玄思1000内置的网卡与其他系统进行通讯，实现了AI训练集群性能、扩展性和鲁棒性的协同提升。

文章图片
▲POD内所有思元芯片通过MLU-Link全互联
除了标准配置的POD之外，在计算中心条件允许的前提下，通过MLU-Link多芯互联技术，可实现1024颗或更多思元290互联，不需要额外的网卡即可实现无缝加速。
四、支持实现4个相互隔离的实例
不同场景下的AI训练对计算和存储的要求千差万别，如何提供更灵活也更稳定的服务，但同时让算力得到充分地利用，是AIDC面临的持续挑战。
寒武纪虚拟化技术vMLU ，支持在思元290上实现4个相互隔离的AI计算实例，每个实例独占计算、内存和编解码资源。
实例之间的硬件资源互不干扰，即使在虚拟化环境下，仍可保持90%以上的高效率，帮助客户充分利用硬件资源。

文章图片
▲思元290上实现4个相互隔离的AI计算实例
vMLU还能帮助思元290芯片提供更好的灵活性。通过热迁移技术，云管理员可将正在运行的AI负载及其应用程序移动到另外一台主机上，从而平衡整个AIDC的负载，并实现更好的容灾功能。

文章图片
▲vMLU热迁移
五、搭配寒武纪Neuware训练软件栈，支持多种应用训练推理
寒武纪Neuware软件栈为思元290芯片提供完善的软件及应用生态，支持业界主流的TensorFlow和PyTorch等深度学习框架，用户不需要改变使用习惯，即可在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。
其中，基于Horovod分布式训练框架与MLU-Link多芯互联技术相互配合，使思元290在单机多卡、多机多卡的场景下达到业界领先的训练加速比。
寒武纪Neuware提供完善的开发工具包和社区支持，帮助用户在思元290芯片进行方便、灵活的定制开发及部署工作。配合BANG智能编程语言及配套调试工具，用户可以为自定义的算法提供最佳性能调优。

文章图片
▲寒武纪Neuware软件栈
结语：寒武纪已建立云边端一体生态
随着寒武纪首颗训练芯片思元290智能芯片及加速卡、玄思1000智能加速器训练产品线亮相，寒武纪已建立“云边端一体、软硬件协同、训练推理融合”的新生态。
在完整产品体系搭建后，下一步，寒武纪不仅将面临研发方面的持续创新优化，也将迎来多样化的人工智能应用场景与需求的产品化考验。
来源：寒武纪