对话Graphcore中国高管:新IPU性能大幅超NV A100,中短期内冲市场第二


对话Graphcore中国高管:新IPU性能大幅超NV A100,中短期内冲市场第二文章插图
芯东西(公众号:aichip001)
作者 | 韦世玮
编辑 | Panken
芯东西12月18日消息 , 昨天 , 芯东西等少数媒体与英国AI芯片独角兽Graphcore高级副总裁、中国区总经理卢涛 , Graphcore中国工程总负责人、算法科学家金琛 , 进行了一场深入交流 。
这场交流围绕的主角正是Graphcore在今年7月发布的专为AI任务设计的第二代IPU , 以及用于大规模系统级产品IPU-Machine: M2000(IPU-M2000) 。
据了解 , IPU-M2000是一款即插即用的机器智能刀片式计算单元 , 搭载第二代Colossus IPU处理器GC200 , 采用7nm制程工艺 , 由Poplar软件栈提供支持 , 易于部署 。
对话Graphcore中国高管:新IPU性能大幅超NV A100,中短期内冲市场第二文章插图
同时 , Graphcore还基于16台IPU-M2000构建了模块化机架规模解决方案——IPU-POD64 , 主要用于极大型机器智能横向扩展 , 具有灵活性和易于部署的特性 。
此外 , 两位高管在分享Graphcore在今年12月最新动态的同时 , 还公布了第二代IPU的Benchmark , 并分享Graphcore在中国以及全球的业务和业务落地情况、合作伙伴生态建设等信息 。
一、IPU-POD64已全球发货 , 可横向及纵向扩展今年12月 , Graphcore发布了面向IPU的PyTorch产品及版本和Poplar SDK 1.4 。 同时 , 还公布了IPU-M2000应用测试性能及源码开放 。
卢涛谈到 , IPU-M2000是目前世界上继英伟达GPU、谷歌TPU后 , 第三个公开发布的能够训练BERT-Large模型的AI处理器 , 并已在Benchmark Blog、Benchmark charts、Performance results table等官网发布上线 。
此外 , IPU-M2000将在2021年上半年正式参与MLPerf性能测试 , Graphcore也已加入MLPerf管理机构MLCommons 。
对话Graphcore中国高管:新IPU性能大幅超NV A100,中短期内冲市场第二文章插图
卢涛重点谈到了IPU-POD64 , 该方案实现了X86和IPU智能计算的解藕 , 目前该产品已在全球范围内发货 。
他认为 , IPU-POD64是目前市面上唯一可纵向扩展和横向扩展的AI计算系统产品 。
简单来说 , 在纵向扩展上 , IPU-POD64可以实现从一台M2000到IPU-POD16(4台M2000) , 再到IPU-POD64(16台M2000)的软件透明扩展 , 且无需任何软件修改 , 单机即可进行集群规模的运算 。
从横向扩展角度看 , IPU-POD64还可实现多台IPU-POD64的横向扩展 , 最大可支持6.4万个IPU组成的AI计算集群 。
目前 , IPU-POD64目前已在全球范围内发货 。 卢涛提到 , 明年Graphcore在中国发展的两大重点 , 一是落地、二是生态建设 。
对话Graphcore中国高管:新IPU性能大幅超NV A100,中短期内冲市场第二文章插图
二、在BERT-Large训练时长比A100缩短5.3倍金琛主要向大家详细介绍IPU-M2000在各模型上的训练和推理等相关数据 , 既包括CNN模型EfficientNet , 还包括语音模型Deep Voice、传统机器学习模型MCMC等 。
例如 , 集成了16台M2000的IPU-POD64在BERT-Large上的训练时间 , 比一个英伟达DGX A100缩短了5.3倍 , 比三个DGX A100缩短了1.8倍 , 总体拥有成本的优势接近2倍 。
在EfficientNet-B4上 , IPU-M2000的推理吞吐量比目前市面上最新GPU提升超过60倍 , 时延缩短超过16倍 。
【对话Graphcore中国高管:新IPU性能大幅超NV A100,中短期内冲市场第二】同时 , IPU-M2000在面向NLP、语音和金融等不同领域模型训练和推理的性能结果也表现不错 。
对话Graphcore中国高管:新IPU性能大幅超NV A100,中短期内冲市场第二文章插图