|天猫双11订单峰值58.3万笔/秒,狂欢背后隐藏了哪些技术?


机器之心原创
作者:徐丹
11 月 11 日零点刚过 26 秒 , 天猫双十一订单峰值产生 , 58.3 万笔 / 秒 。
11 月 1 日零点至 11 月 11 日零点 30 分 , 今年整个双十一成交额破 3723 亿 , 实时成交额超过 1 亿元的品牌超过 300 个 。
这是今年阿里交出的双十一成绩单 。 不断增长的订单数据背后 , 今年的消费体验也出现了很多变化 , 付款不再卡顿、快递速度极快…
盛大的消费狂欢过去后 , 来盘点一下 , 阿里用什么技术撑住了双十一?
一、阿里双十一技术发展史 , 从去 IOE 说起
从最底层来说 , 支撑双十一庞大订单销量的技术都来自 10 年前那场基于「云」的宏大叙事 。
2010 年前后 , 企业必备的 IT 基础设施是「IOE」:IBM 的小型机、Oracle 数据库及 EMC 存储设备 , 虽然性能稳定 , 但是成本非常高 , 且部署麻烦 。
「为了准备一次秒杀营销 , 从社会采购到安装部署至少需要半年的时间 , 但半年后这项业务几乎已经不存在了 。 」阿里巴巴研发院业务发展专家孙黎明去年接受财新采访时表示 。
阿里电商业务的发展在倒逼技术变革 , 于是阿里开始了「去 IOE」这个节点性的变革 。 转而用 PC Server、MySql 开源数据库以及自主研发的系统来替代 , 就这样艰难的开始了当时谁都说不清楚的「云计算」的征程 。
去 IOE 后 , 阿里实际上便发展起了一种用互联网技术去支撑海量交易和支付的架构和基础技术 , 此后每秒钟数十万笔的交易支付从不可能变成可能 。
但互联网的基础计算架构不只是数据库体系 , 还有操作系统 , 跟去 IOE 并行的是自建系统 , 也就是「飞天」 。 2009 年春节前后 , 阿里工程师在北京上地汇众大厦一间快要废弃的办公室写出了阿里云计算操作系统「飞天」的第一行代码 。
飞天的核心是 2013 年启动的大数据平台 Maxcompute , 平台创新性的采用了 Datalake 技术 , 把不同的数据源用类似的方式存储 , 用统一的方法计算 , 提供一套标准化语言 , 快速实现不同类型数据的计算 。
如此处理更大的计算量 , 让整个计算变得没有极限 。 如今 Maxcompute 已经可以承载 EB 级别的数据存储能力和百 PB 级的单日计算能力 。
在去 IOE 和飞天的基础上 , 2015 年阿里对技术进行了一轮总结 , 提出了「中台」战略 。 提炼各个业务条线的共同需求 , 整合集团的运营数据能力、产品技术能力 , 打造成组件化产品 , 以接口的形式提供给前台各业务部门使用 。
无论在什么时候 , 中台都是阿里「确定性的增长引擎 。 」
2015 年恰好是移动互联网兴起 , 移动交易笔数超过 PC , 阿里中台做到了在支撑这么大数据量级下 , 用实时数据驱动商业 。
当世界逐步迈入 AI 时代时 , 2017 年阿里达摩院成立 , 来探索底层的颠覆性技术 , 达摩院这个名称意为「侠之大者 , 为国为民」 。
在 AI 技术的支撑下 , 购物变得更加智能 , 个性化推荐、用户购买行为实时分析等成为可能 。
到了 2019 年 , 阿里将这些技术全部融会贯通 , 将电商核心系统「全面上云」 , 而今年是阿里第一次云上支撑如此大规模的双十一 。
「今年是新一轮的『双十一』元年 。 」阿里巴巴集团首席技术官程立表示 。 在此基础上阿里提出了「数字原生操作系统」这一概念 。
数字原生操作系统分为三层:底层是基础设施 , 以云为代表的数字新技术;中间是中台 , 包含业务、数据、智能、协同在内的数字创新平台;上层是对包括品牌、商品、销售、营销、渠道、制造、服务、金融、物流供应链、组织等在内的商业要素的全面在线化与数字化 。

|天猫双11订单峰值58.3万笔/秒,狂欢背后隐藏了哪些技术?
本文插图
阿里巴巴数字原生操作系统 分页标题
在全面上云的基础上 , 阿里今年的目标是「应用架构云原生」 。 目前阿里的上云还停留在 IaaS 层 , 主要是对计算、网络、存储的虚拟化 , 经历过这一阶段阿里就进入了 PaaS 上云阶段 , 需要使用更多的云产品 , 包括中间件、存储、缓存甚至是应用托管平台等 。 这些都会都会对于应用架构产生比较强的侵入 。
那么总结来看 , 全面上云之后的红利究竟是什么?程立认为是「底层硬核技术的释放」 。
通过这一套操作系统 , 超级数据中心、AI 芯片等都可以畅通无阻的为上层商业系统带来澎湃动力 。
二、更快的速度
底层技术提供的动力直接展现在了消费体验上 。
「零点秒付 。 」结账时的顺滑不卡顿可能是这次双十一给消费者最深的印象之一 。
要知道 , 支持千万级别的消费者在零点高峰期付款的背后需要极其强大的算力支持 , 更何况随着直播电商兴起 , 平台还要支持消费者在观看直播的同时点链接抢货 。
程立表示 , 「阿里应该是唯一有底气敢于让主播在直播间喊 123 开抢的直播平台 。 」在这个过程中 , 要能够喊 123 开抢 , 意味着直播极低的延时 , 1 秒钟之内主播所有画面和声音必须达到消费者 , 对直播平台提出更加高的要求 。
这背后的基础设施就是「数据中心」 。 到今年双十一 , 阿里已经有包括张北、乌兰察布、河源、南通、杭州在内的五大超级数据中心合力支撑 。
其中在杭州数据中心内 , 全球规模最大的液冷服务集群将有上万台液冷服务器投入生产处理双 11 的海量计算工作 , 这些服务器的网线连起来可以绕地球一周 。
另外 , 阿里还重构了业内罕见的「给服务器泡澡」冷却技术——工程师将服务器浸泡在特殊的绝缘冷却液中 , 散热全程无需风扇、空调等制冷设备 , 大大降低了数据中心的能耗 , 整体节能超 70% , 全球最低 。

|天猫双11订单峰值58.3万笔/秒,狂欢背后隐藏了哪些技术?
本文插图
液冷服务器
据阿里计算 , 假如全中国所有的服务器都采用液冷技术 , 每年将节省超过 800 亿度电 , 接近三峡大坝一年的发电量 。 未来阿里云预计在全国建立 10 座以上的绿色超级数据中心 。
同时 , AI 机器人、智能运维等技术也逐渐大规模使用 。 今年双 11 , 阿里云数据中心的巡检机器人「天巡」升级到了第二代 , 不仅实现了无「人」值守 , 还可全自动更换故障硬盘:自动巡检——故障盘定位——取盘换盘——硬盘通电 , 整个动作一气呵成 , 只需 4 分钟即可完成更换动作 。

|天猫双11订单峰值58.3万笔/秒,狂欢背后隐藏了哪些技术?
本文插图
运维机器人天巡
数据中心提供算力支撑 , 计算框架「流批一体」则大大提升了计算和查询的速度 , 流批一体意味着计算引擎同时具备流计算的低延迟和批计算的高吞吐高稳定性 。
今年流批一体将在阿里内部小二端大规模应用 , 实现了哪怕是多个计算处理模式 , 也只需要撰写一套代码就能兼容 。 在计算速度上比其他框架快 1 倍、查询快 4 倍 。 同时 , 由于「一体化」的特性 , 能实现实时与离线数据的完全一致 。
从实际效果看 , 流批一体最大的好处是可以实现数据的实时分析 。 在实际销售场景中 , 哪类产品主推、哪些产品上架都需要实时的数据反馈 , 需要看清消费者购物心理 。
在这种计算框架的支持下 , 阿里商家店铺经营一站式数据平台——生意参谋完成了「智能巡检」、「自助分析」功能的上线 , 帮助商家一键看清并判断店铺当前的经营状态优劣 , 直接展示对当前店铺生意波动影响最大的商品和渠道 , 方便商家针对问题进行深度分析和优化 。
三、更智能的体验
除了购物更快 , 今年双十一的另一个特征是更「智能」 。分页标题
今年双 11 前夕 , 淘宝首页大幅改版 。 在信息流、搜索、聚划算、会场和直播等用户场景 , 智能计算调用量日均已高达数千亿次 。
平台对用户消费行为的洞察和商品推荐也更加精准 , 而这背后的技术引擎是智能搜索引擎 。 阿里的智能搜索推荐日均模型发布 1000+ , 单模型容量 1TB+ , 模型可以即时分析 , 分钟级更新 1 亿参数 。
整个智能引擎技术包括三层:底层是全域知识层 , 包括全球最大的电商认知体系、阿里经济全域知识体系、消费者多维认知体系 , 帮助机器理解万物 。
第二层是推理层 , 根据现有知识对个性化场景进行理解和推理 , 在该层阿里也构建了全球首个云端协同神经网络 , 能通过差分机制、端侧运算更好的保护数据隐私 。
第三层是认知智能 , 即用户交互层 , 利用多样性的交互认知助力消费者决策 。 比如 , 在搜索层面阿里实现了语音、图片、文本、短视频等的「万物可搜」 。
在视觉 AI 领域 , 拍立淘目前支持 4 亿商品对应的图片和视频检索;自然语言学习(NLP)、实时机器翻译、语义识别等技术 , 也在店小蜜、实时翻译、商品评价分析等关键链路使用 。 甚至还有读光 OCR 帮助视障人士用耳朵购物 。

|天猫双11订单峰值58.3万笔/秒,狂欢背后隐藏了哪些技术?
本文插图
直播实时翻译
AI 虚拟主播也在实践中出现 , 虚拟主播结合感知与认知、导演系统、3D 建模和素材库以及 TTS 人机对话技术 , 可半小时复制主播的声音 , 并完美结合主播的表情、动作 , 生成不亚于真人主播的「虚拟主播」 , 在主播下线的情况下 , 代替主播进行实时直播和解答 , 实现 24 小时不休眠的在线直播 。
四、数字化打通消费、供应链、生产制造全环节
除在线的消费体验外 , 整个操作系统实现数字化后还可以往上 , 把消费端、供应链端到制造端完全打通 。
比如物流环节 , 今年双十一物流被评价为「有史以来收到最快的快递」 , 有人凌晨两点多付完尾款 , 早晨 8 点多便收到货 。
阿里菜鸟提供了一个数字物流平台 , 在预售时商家的商品就已经被下沉到了离消费者最近的菜鸟驿站中 , 商家一旦接收订单 , 整个供应链都会协同 , 最后通知驿站小二发货 , 非常迅速的将货送到消费者手中 。
菜鸟有一个 IoT 产品系列 LEMO , 包括新式手持终端、智能寄件机等 , 今年将全面赋能从仓到配的物流链条 , 预计可以支持 3 亿包裹的从仓到配 。 阿里测算 , 这些数字化的 IoT 设备在今年双 11 期间 , 会帮消费者节省 15 万个小时 。
出身两个月不到的小蛮驴也已经应用在了双十一实践中 , 使社区无人配送成为可能 。
另外 , 通过淘宝的信息流和搜索 , 阿里能够非常清晰的洞察消费需求 , 知道什么样的新品能够打动消费者 , 如此便可以面向不同的行业商家去做新品的孵化 。 新品产生后又能将其精准的推销给用户 。
再配合「犀牛制造」 , 阿里便可以打造真正全链路、规模化的柔性制造案例 。
在供应链端 , 直播等新的消费形态改变了用户整个消费行为 , 对供应链提出更高的要求 , 而供应链的数字化能够帮助商家智能备货、极速履约 。
阿里今年搭起了直播全链路协同平台 , 数据智能贯穿在从商品供给到仓配决策到末端解决方案全过程 。 帮助商家三分钟释放库存、接住直播中突发交易单、做损益测算 , 也可以直接赋能商家通过直播品来提升 GMV 成交 。
最后 , 2020 双十一的科技感可以总结为以下十大前沿技术:

|天猫双11订单峰值58.3万笔/秒,狂欢背后隐藏了哪些技术?
本文插图
【|天猫双11订单峰值58.3万笔/秒,狂欢背后隐藏了哪些技术?】「2020 双十一」十大前沿技术 分页标题