按关键词阅读:
人工智能正在召唤”神龙” 。 3月21日 , 阿里云发布业内首个公共云异构超算集群——基于弹性裸金属服务器神龙X-Dragon的SCC-GN6 , 集群性能接近线性增长 , 将深度学习训练时间缩短至分钟级 , 可满足无人驾驶、智能推荐、机器翻译等人工智能场景的高性能计算需求 。
----阿里云发布神龙异构超算集群 , 人工智能深度学习训练缩短至分钟级//----看点频道 http://k.010lm.com //
阿里云发布首个异构超算集群
人工智能特别是深度学习 , 对算力的要求永无止境 。 但如果只是堆砌芯片 , 没有低延时网络、高速读写能力 , 大规模集群无法发挥出最大的计算性能 , 性能损耗通常在50%左右 。 且算力资源并不丰富 , 有研究显示 , 到2030年中国研究人员每人平均只能拥有1-2个GPU , 大多数研究将受到计算能力的严重限制 。 SCC-GN6是首个基于X-Dragon架构的超算异构产品 , 神龙云服务器与阿里云ECS、GPU云服务器等一起 , 最多可达512个节点 , 计算性能依旧接近线性增长 , 提供堪比超算中心的并行计算资源 。 分页标题#e#
----阿里云发布神龙异构超算集群 , 人工智能深度学习训练缩短至分钟级//----看点频道 http://k.010lm.com //
神龙异构超算集群性能接近线性增长
这不仅因为支持节点数量多 , 更因为集成多项自研技术:软硬结合的X-Dragon架构兼具性能和灵活性 , 50G RDMA超算网络降低网络延时 , 百万级IOPS性能的ESSD块存储提供低于百微秒的读写延时 , 高性能并行文件系统CPFS读写吞吐达1TB/s , 分布式加速框架Ali-Perseus对集群内每一颗GPU工作负载进行优化和加速 。 最高可以实现100%的性能提升 , 从而最大限度发挥芯片的计算性能 。
以ImageNet竞赛的128万张图片的数据集为例 , 用普通计算资源训练ResNet50模型 , 如要达到75%的精度需要数天甚至一周的时间 , 而使用该神龙异构超算集群产品 , 模型训练可以缩短到几分钟 , 大大提升AI算法研发效率 , 加速业务创新 。 分页标题#e#
阿里云智能创新产品线负责人张献涛表示:”人工智能对算力提出了新挑战 , 神龙异构超算集群提供了堪比超算中心的并行计算资源 , 用户可以随时获取高性能计算能力 , 更不用担心购买、搭建GPU需要耗费的时间成本 。 ”此外 , 阿里云还发布了国内首个公共云上的轻量级GPU异构计算产品——vGN5i , 打破传统直通模式局限 , 提供比单颗物理GPU更细粒度的服务 , 从而让用户以更低成本、更高弹性开展业务 。
作为国内第一、全球前三的云服务商 , 阿里云于2017年10月发布了全球首个新一代”跨界”服务器弹性裸金属服务器神龙X-Dragon , 拥有接近物理机的性能以及虚拟机的灵活性 , 提供了新的计算资源获取方式 , 已经大规模服务于智能客服助手、智能翻译、无人驾驶、智能推荐等场景 。
在2019阿里云峰会·北京上 , 阿里云还提出未来将围绕IT基础设施的云化、核心技术的互联网化和应用的数据化、智能化 , 持续推出符合用户需求的产品 , 同时致力于被生态伙伴集成 , 不做SaaS并帮助企业做更好的SaaS 。 除了神龙异构超算集群外 , 阿里云还发布了新版本POLARDB可兼容Oracle、SaaS加速器和小程序云 。 分页标题#e#
来源:(资讯-云计算)
【】网址:/a/2019/0321/kd100793.html
标题:阿里云发布神龙异构超算集群,人工智能深度学习训练缩短至分钟级