460亿个晶体管!寒武纪首颗7nm AI芯片亮相,全面支持训练和推理( 二 )
MLU-Link具备丰富的互联特性 , 突破PCIe带宽和互联的瓶颈 , 相比思元270芯片通过PCIe并行的通讯方式 , 带宽提高19倍 。 
文章图片
▲思元290相较思元270并行通讯总带宽提升19倍
玄思1000配置8个对外互联的MLU-Link接口 , 支持跨系统互联构建MLUPOD 。 标准配置支持MLUPOD16、24、32 。 
文章图片
▲玄思1000支持8个400GMLU-Link和2个200G网络接口 , 总带宽高达3600Gbps , 是传统异构服务器的2倍
在POD内部 , 所有思元290芯片均可通过MLU-Link多芯互联技术进行通讯 , 在带宽和延时方面实现了突破 。
在POD外部 , 通过玄思1000内置的网卡与其他系统进行通讯 , 实现了AI训练集群性能、扩展性和鲁棒性的协同提升 。 
文章图片
▲POD内所有思元芯片通过MLU-Link全互联
除了标准配置的POD之外 , 在计算中心条件允许的前提下 , 通过MLU-Link多芯互联技术 , 可实现1024颗或更多思元290互联 , 不需要额外的网卡即可实现无缝加速 。
四、支持实现4个相互隔离的实例
不同场景下的AI训练对计算和存储的要求千差万别 , 如何提供更灵活也更稳定的服务 , 但同时让算力得到充分地利用 , 是AIDC面临的持续挑战 。
寒武纪虚拟化技术vMLU , 支持在思元290上实现4个相互隔离的AI计算实例 , 每个实例独占计算、内存和编解码资源 。
实例之间的硬件资源互不干扰 , 即使在虚拟化环境下 , 仍可保持90%以上的高效率 , 帮助客户充分利用硬件资源 。 
文章图片
▲思元290上实现4个相互隔离的AI计算实例
vMLU还能帮助思元290芯片提供更好的灵活性 。 通过热迁移技术 , 云管理员可将正在运行的AI负载及其应用程序移动到另外一台主机上 , 从而平衡整个AIDC的负载 , 并实现更好的容灾功能 。 
文章图片
▲vMLU热迁移
五、搭配寒武纪Neuware训练软件栈 , 支持多种应用训练推理
寒武纪Neuware软件栈为思元290芯片提供完善的软件及应用生态 , 支持业界主流的TensorFlow和PyTorch等深度学习框架 , 用户不需要改变使用习惯 , 即可在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理 。
其中 , 基于Horovod分布式训练框架与MLU-Link多芯互联技术相互配合 , 使思元290在单机多卡、多机多卡的场景下达到业界领先的训练加速比 。
寒武纪Neuware提供完善的开发工具包和社区支持 , 帮助用户在思元290芯片进行方便、灵活的定制开发及部署工作 。 配合BANG智能编程语言及配套调试工具 , 用户可以为自定义的算法提供最佳性能调优 。 
文章图片
▲寒武纪Neuware软件栈
结语:寒武纪已建立云边端一体生态
随着寒武纪首颗训练芯片思元290智能芯片及加速卡、玄思1000智能加速器训练产品线亮相 , 寒武纪已建立“云边端一体、软硬件协同、训练推理融合”的新生态 。
在完整产品体系搭建后 , 下一步 , 寒武纪不仅将面临研发方面的持续创新优化 , 也将迎来多样化的人工智能应用场景与需求的产品化考验 。
来源:寒武纪
- 中年|一个人的旅行,那就来泸沽湖吧
- 刘强东还有一个十几岁的儿子,亲生母亲是个谜,章泽天知道吗?
- 一个月仅需1400元?哈弗初恋养车成本分析!
- 为啥富人搞农业容易失败?3个无法回避的难题,不是有钱就能解决
- 爱吃黄金的生物被发现,科学家们有一个大胆的想法
- 卖爆了!这种车火了!连续11个月,销量刷新纪录!啥情况?
- 网红贝勒爷又丑又邋遢?梳妆打扮换上刺绣长裙后,欠她一个道歉
- 他开演唱会不仅迟到2个小时,还忘词公然耍大牌,今彻底凉凉了!
- 《骊歌行》定档!换了第七个剧名,李一桐、许凯终于要来了?
- 露娜新皮肤销量惨淡!大仙体验完点评三个字,玩家:活该没人买
