虎嗅APP|超算芯片霸主之争,终于有了新变数
本文插图
出品| 虎嗅科技组
作者| 宇多田
封面| 视觉中国
2020年4月 , 以近70亿美元被英伟达最终收购的以色列顶级数据中心网络技术公司Mellanox , 在长达半年多的“沉默”后 , 在11月迎来了两件足以引起业内轰动的大事 。
首先 , 陪Mellanox走了21年 , 并一手促成这笔交易的创始人兼首席执行官Eyal Waldman宣布离职 , 并留下了一句颇为潇洒的话:
“在达成这笔交易时 , 我就知道我要离开了 。 你知道我用几十年创建一家公司并做出所有决策 , 不是用来做第二名的 。 ”
其次 , 就在今天 , Mellanox作为英伟达GPU家族的一部分 , 被英伟达融入了新的网络连接架构产品——NVIDIA Mellanox 400G InfiniBand 。
此后 , 它将以“GPU伴侣”的身份 , 率先打入数据中心市场的最精锐部队——超级计算机市场 。
本文插图
NVIDIA Mellanox 400G InfiniBand产品的架构组成 。 简单来说 , 就是一个用以连接其他服务器与英伟达产品的组件
英伟达在今天的全球超级计算大会上 , 再次刷新了自己最强大GPU产品线——企业级加速器A100的 性能纪录 。
新一代的A100 GPU将高带宽内存提升至80GB , 比上一代扩大一倍 。 这意味着 , 每秒超过2TB的内存带宽 , 会让数据在内存与GPU之间流通得更加迅速 , 以便“承受”研究人员建立更大规模人工智能模型和数据集带来的压力 。
“现在要在AI和高性能计算(HPC)的研究成果上继续突破上限 , 科学家们必须要构建更大更复杂的模型 , 那么便需要比以往更大的内存容量与更高的带宽 。 ” 英伟达应用深度学习研究副总裁Bryan Catanzaro指出 。
本文插图
英伟达在英国剑桥的超算中心部署了由若干块A100 80GB组成的DGX系统
实际上 , 除了改变芯片产品的架构 , 把成百上千块芯片用最高效的形式“连”起来 , 当然也能解决科学家们每秒/百亿亿次的超大计算需求 , 而收购的Mellanox的用意便在于此 。
如果你见过位于无锡的中国超级计算机“太湖之光” , 就会发现“这台计算机”其实是一个由成百上千台黑色机柜组成的计算机集群 , 可以填满一间约1000平米的屋子 。
它既可以被称为“高性能计算机群” , 也可以被看做是一个不小规模的数据中心 。
当然 , 这些黑色机柜的性能 , 要比普通服务器强大太多 , 由4万多块不同种类的国产芯片组成 , 仅集成它们就是一项极为艰巨的任务 , 用时两年 , 总投入超过了18亿人民币 。
本文插图
位于无锡超算中心的太湖之光
而NVIDIA Mellanox 400G InfiniBand的作用 , 便是将超级计算机中上万块CPU、GPU以及其他种类芯片“连接”在一起 。 在发挥性能最大化的同时 , 每块芯片的数据传输效率也不能有太多损耗 。
“之前CPU与GPU之间的互联 , 都是通过英伟达的NVlinks(一种总线及其通信协议) , 但这个东西互联的效率没有特别好 , 不能简单扩展到上千块芯片互联的超算场景 。 ”参与研发过TPU , 芯英科技联合创始人杨龚轶凡告诉虎嗅 , Mellanox擅长的便是此前英伟达最大的短板之一 ,
“一台超级计算机 , 各品牌芯片之间的高效配合 , 极为重要 。 之前英伟达的NVlinks只能和IBM的CPU互联 。 而收购Mellanox后 , 英伟达增强了用芯片构建超算系统的可扩展性 , 可以让GPU与其他品牌和种类的芯片进行连接 。 ”
- 识季一级优惠码:QYK9 可重复使用!识季app新客除88折优惠代金券优惠 |奢侈品电商再迎新势力 识季SENSER破解行业两大顽疾
- 记者从工信部获悉|被手机APP监视?工信部:提升检测能力,建全链条监管体系
- 苹果官网在土耳其暂停销售后,Apple Store 也把顾客拒之门外
- 被公司监控的互联网人:开听歌APP被警告、不敢跟朋友聊微信
- 【TechWeb】企查查APP显示|企查查显示京东关联公司经营范围新增汽车新车销售等
- 同花顺崩了上热搜?金融证券APP出现系统问题到底该怪谁?
- 适老版本App屈指可数,保险业在“触手可及端”应如何更亲近银发群体?
- 智通ADR统计 | 10月21日
- 408款App,下架!针对“关不掉”“乱跳转”,工信部已出手→
- 智通ADR统计 | 10月20日
