华为数据通信|CloudFabric,引领数据中心网络进入智能时代


人类社会的发展在经历了农业时代、工业时代后 , 随着信息化技术的发展 , 终于迎来了数字经济时代 。 据Gartner调研 , 75%的大型企业已经将数字化转型作为企业核心战略 。 与农业经济关注土地和劳动 , 工业经济关注资本和技术截然不同 , 数字经济的核心生产要素已经转变为数据和智能 。 企业数字化转型过程中产生大量的数据 , 已经成为企业核心资产的一部分 , 然而数据本身不是目的 , 知识和智慧才是永恒的价值 。 通过AI从数据中挖掘智慧 , 实现数据的商业价值变现 , 成为当前企业数字化转型的主题 。 AI成为企业重塑商业模式、提升客户体验和开创未来的关键推动力 。 +AI , 标志着企业数字化转型进入了智能化新阶段 。
【华为数据通信|CloudFabric,引领数据中心网络进入智能时代】

华为数据通信|CloudFabric,引领数据中心网络进入智能时代
本文插图
AI驱动数据中心重构 , 数据中心网络面临新挑战
企业智能化升级驱动数据中心从云时代迈入了智能时代 。 相比而言 , 云数据中心更像是个业务支撑中心 , 以应用为中心 , 通过云平台实现IT资源的快速发放 。 而AI数据中心在云数据中心基础上真正演进成为商业价值中心 , 以数据为中心 , 聚焦于如何基于AI对数据进行高效处理 。

华为数据通信|CloudFabric,引领数据中心网络进入智能时代
本文插图
AI 驱动数据中心重构
众所周知 , AI高效运行依赖巨大算力支撑 , 比如一次普通的语音识别的AI训练涉及到20E(1E=1018)次的浮点计算 , 即便用全世界最高性能的超级计算机来计算 , 也需要较长的时间 。 AI的算力诉求驱动数据中心架构重塑 。 数据中心正走向以全闪存存储数据湖为核心 , 以 GPU/AI多样化计算为算力底座的智能时代数据中心新架构 。 存储和计算设施正在发生颠覆性的变革:全闪存化存储介质使得存储性能提升百倍 , GPU/AI智能计算使得计算性能提升百倍 。
如果说单个服务器的运行效率通过提升处理器和存储介质的性能来获得 , 而整个数据中心的运行效率则取决于数据中心网络的性能 。 数据中心网络已经成为智能时代数据中心算力释放 , 数据价值变现的核心关键 。 同时AI作为智能时代的使能技术 , 如何进一步帮助数据中心网络自身完成智能升级 , 提升部署运维效率 , 成为新的机遇和挑战 。 CloudFabric , 面向AI智能时代全新升级
作为企业数据金矿的炼金术 , AI点石成金 , 成为企业数字化转型到智能升级成败的关键 。 而AI技术的大量使用 , 驱动企业数据中心使命发生颠覆性变革 。 值此AI技术正在广泛应用于数据中心之际 , 为了帮助客户更好地应对新挑战 , 华为对CloudFabric数据中心网络解决方案进行全新升级 。 全球最高密400GE , 打通进入智能时代康庄大道
企业数字化带来全球每年产生数据量暴增 , 据华为GIV预测预计2025年将达到 180ZB , 10年增加20倍 。 当前100GE的数据中心网络已经无法应对未来几年的数字洪水挑战 , 同时从业界主流的AI业务服务器来看100GE网卡接口已经成为标配 , 数据中心网络400GE时代已经来临 。
2019年 , 华为发布的业界首款面向AI智能时代的数据中心交换机CloudEngine 16800 , 全面升级了硬件交换平台 , 在正交架构基础上 , 突破超高速信号传输、超强散热、高效供电等多项技术难题 , 使得单槽位可提供业界最高密度48端口400GE线卡 , 单机提供业界最大的768端口400GE交换容量 , 交换能力达到业界的5倍 , 轻松应对AI智能时代流量倍增需求 。

华为数据通信|CloudFabric,引领数据中心网络进入智能时代
本文插图
CloudEngine 16800 数据中心交换机业界首个0丢包以太网 , 释放智能时代算力巅峰 分页标题
智能时代的核心就是引入AI挖掘数据价值 , 以深度学习为特征的AI计算依赖海量的数据的输入 , 数据的存取速度将直接影响算力的发挥 。 计算和存储的性能百倍提升导致传统网络的拥塞易丢包带来的网络瓶颈问题开始突显 。 1‰的丢包在AI时代会直接导致算力下降接近 50% 。 而随着业务负载增加和分布式计算流量的增多 , 网络丢包问题将更为严重 。 AI数据中心一方面算力贵 , 算力缺成为时代挑战 , 而另一方面由于网络瓶颈问题导致昂贵的算力无法充分释放 。 如何构建一个0丢包的无损数据中心网络成为面向智能时代的数据中心网络的基本要求 。
华为CloudEngine 16800是业界首款搭载了高性能AI芯片的数据中心交换机 , 承载独创的 iLossLess智能无损交换算法 , 实现流量模型自适应自优化 。 基于CloudEngine交换机构筑的智能无损DCN , 真正实现以太网络0丢包 , 全面释放AI算力潜能 。 根据权威第三方测试机构Tolly测试 , 在同样GPU集群下 , 通t过采用华为智能无损DCN , AI业务的训练效率比采用当前业界其他网络提升27%以上 。

华为数据通信|CloudFabric,引领数据中心网络进入智能时代
本文插图
华为智能无损 DCN
华为智能无损DCN目前已经应用于代表全球算力巅峰的AI训练集群Atlas900中 , 成为其突破性能瓶颈冲击世界纪录的关键助推器 。 智能无损DCN不仅仅是面向AI训练集群的高性能网络 , 更是代表面向智能时代数据中心的新一代网络新架构 。 率先实现网络全智能 , 迈向自治自愈的自动驾驶
数据中心的规模越来越大 , 结构越来越复杂 , 有些数据中心OPEX支出甚至超过为CAPEX的三倍 , 数据中心的效率和成本面临结构性挑战 , 即便采用当前主流的SDN实现网络的自动部署 , 但是在业务意图理解 , 网络日常巡检 , 故障定位修复等方面 , 仍然依赖管理员 。
华为首先提出自动驾驶网络的理念 , 在SDN网络架构基础上 , 针对网络设备、网络管理控制及上层业务编排系统 , 在规划、部署、运行、维护、优化和经营的端到端过程中引入AI技术 。 通过AI技术使得网络从自动化业务部署和动作执行 , 走向智能化的故障自愈 , 网络自我优化 , 最终实现网络自治自愈和无人值守 。
AI加持的全智能数据中心网络CloudFabric目前已经可以初步实现“智能理解业务意图、智能选取最佳网络路径、智能评估变更风险、智能检测故障和快速定位根因” , 针对75类常见故障 , 可以做到1分钟感知故障、3分钟定位故障、5分钟修复故障 , 率先在数据中心网络领域实现业界首个L3级自动驾驶网络 , 并获得Tolly第三方权威机构的认证 。 全新CloudFabric , 引领数据中心网络进入智能时代
大约2000年左右 , 随着企业信息化战略的发展推进 , 真正的企业数据中心诞生 。 2010年左右企业数字化战略提出 , 云计算方兴未艾之际华为率先发布业界首个云数据中心网络CloudFabric , 引领数据中心进入云时代 , 实现 IT资源的弹性扩缩和自动发放 。
当前企业数字化转型进入智能化升级新阶段 , AI 正在广泛应用于数据中心之际 , 华为对CloudFabric进行全新升级 。 CloudFabric不仅率先完成数据中心网络自身的全智能化 , 实现了业界首个L3级的自动驾驶网络 , 更通过全球最高密400GE的CloudEngine交换机、内嵌AI芯片和独创iLossless算法实现业界唯一的0丢包智能无损DCN , 释放智能时代AI算力巅峰 , 让AI业务运行更高效 , 让数据价值商业变现更充分 , 再一次引领数据中心网络进入智能时代 。
作者:华为数据通信产品线数据中心网络领域总裁 王雷