010-66499190
云网融合战略下中国电信算力网络探索与实践云网融合战略下中国电信算力网络探索与实践 陈运清 赵倩颖 雷波 解云鹏 邢文娟 卫敏 中国电信股份有限公司研究院 摘 要: 随着云计算技术与网络技术的不断发展,云网融合已成为未来信息技术发展的重要趋势。中国电信作为国内领先的通信服务提供商,积极开展云网基础设施布局,在业界首创性提出“算力网络概念”积极开展算力网络技术研究与实践,支持国家“东数西算”工程实施,打造新一代云网融合基础设施。本文首先介绍了面向国家“东数西算”工程,中国电信在云网基础设施方向的布局,随后介绍了中国电信在算力网络方向的探索历程与最新实践,最后重点分析了当前算力网络发展所面临的挑战并对算力网络的发展前景进行了展望。 一、中国电信云网布局 2021年5月24日,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,建设全国算力枢纽体系,深化东西部算力协同。中国电信践行国家发展规划,提出云网融合战略,积极开展云网基础设施布局,对方案中关注的网络高质量连接、算力合理布局、数据中心与网络之间协同供给以及计算网络存储一体化服务进行总体布局,支撑国家“东数西算”工程实施落地。 在网络高质量连接方面,中国电信以“网是基础”为目标,构建高速泛在、天地一体的数字信息基础设施,已经实现卫星移动通信领土、领海的全覆盖、是全球最大的光承载网运营商以及全球最大IP互联网运营商;在算力合理布局方面,以“云为核心”打造多层次的数据中心。在数据中心与网络之间协同供给方面,打破传统以行政区域为主的网络架构,通过提升西部枢纽节点在网络中的层级,东西部直达链路等多种手段,降低东部主要城市到西部枢纽节点的时延,从而构建以DC为中心的多层次时延圈,实现区际互联20ms时延圈、省际5ms时延圈以及省内3ms时延圈;在计算网络存储的一体化服务方向,通过云调网与网调云两种路线实现云资源和网资源的一体化供给、一体化服务与一体化运营,满足用户多样化的需求。云调网是以云为入口,网络为其提供连接能力,主要面向云资源池归属于单一服务商的场景;而网调云则是以网为入口,用网络连接多方的云资源池,更适用于云资源池归属于多方的场景,而在“东数西算”工程中,连接多方异构资源是不可避免的,也是当前的行业热点和重点需要突破的难题。 云网融合是数字信息基础设施的核心特征。通过云网融合的技术架构,电信运营商可以通过资源虚拟化技术,使得云网资源按照多租户模式提供给用户,从而支持服务化订购。云网融合技术架构是一个多层次、多维度构建的系统化架构。以云调网和网调云双向技术路线,形成以云为核心的泛在高速、安全、可靠、弹性的数字化基础设施,实现云和算力的一点接入、全网通达。同时衍生出云智、训推一体的分布式云架构,作为新型算力基础设施的基础化底座。云计算是当前算力的重要载体和主要呈现形式。强化多云多网的互联能力,实现异构云、异构网之间的互通是构建现实可运营算力网络的必要前提。在云网融合技术架构中,需要由云网操作系统来统筹云和网虚拟化资源的调度,从而实现云和网络资源的一体化联动,达到云网自智的闭环,以提高服务可用性、提高整体资源利用率,增强用户服务的弹性、降低成本。 算力网络是网调云的核心技术,将当前的算力状况和网络状况形成路由信息发布到网络中,由网络将计算任务分配到相应的计算节点,实现多方异构算力资源接入,提供网络与云资源的一体化调度。中国电信在研究算力网络的过程中主要围绕算力网络概念设想、算力网络整体架构设计、集中式算力网络原型研发、算力网关研发以及面向重点场景的试点验证等方面展开。 二、中国电信算力网络研发历程 1、算力网络概念设想 2019年算力网络名词第一次出现在行业中,它的出现与边缘计算的发展密不可分。边缘计算的发展使得云网分布由传统的云-网-端模型转向云-网-边-端模型,如图一所示。这种演进趋势产生了新的问题:用户如何选择最佳的资源池为其提供服务?边缘节点是否优于云节点?如何在边缘节点与边缘节点之间做出选择?首先,我们发现在实际部署边缘计算时,由于网络绕行的原因物理位置更贴近于用户的边缘计算节点距离用户可能比云资源还要长;其次,同样的两个边缘计算节点分别位于A地与B地,对于A地的用户来说,只有位于该地的边缘计算节点才是真边缘,访问B地的边缘节点甚至比访问云资源池更远。因此,用户在选择计算资源池提供服务时,不仅要考虑计算资源的性能,还要考虑网络条件、报价等综合因素。为了能够掌握不同计算节点的不同属性,结合软件定义网络(Software Defined Network, SDN)的全局视图思想,我们提出了一种名为“算力网络”的技术:它通过集中的控制器收集全网的计算与网络信息,实现对全局信息的掌控。该方法的好处是它的逻辑简单,已有的SDN技术和云计算管理技术已经成熟,实现较快。但是随着研究的不断深入发现,集中式的控制器容易成为性能瓶颈,为了应对大规模算力场景,通过扩展网络协议利用网络协议泛洪的方式获得全局算网信息成为算力网络的第二种思路。综合来看,算力网络是通过网络控制面(集中式控制器或分布式路由协议)收集和分发计算资源和网络资源信息,针对用户的不同类型需求,提供最佳的资源分配及网络连接方案,以实现云、边、网高效协同。 图一 由云网端向云网边端演进 基于这种思想,2019年9月中国电信发表了第一篇算力网络文章《基于云、网、边融合的边缘计算新方案:算力网络》,这是“算力网络”第一次正式出现在出版文献中。2019年10月,中国电信在ITU-T SG13组中完成算力网络框架与架构的标准立项,也是第一次将算力网络名词推广到国际。 2、算力网络整体架构设计 2021年9月,ITU-T发布了由中国电信主导的首个算力网络国际标准 ITU-T Y.2501 算力网络框架与架构,完成了算力网络整体架构设计。在产业伙伴的共同努力下,围绕该标准目前已衍生出在研标准三十余项,形成从总体架构、需求场景、设备协议,信令测试的完整标准簇,如图二所示。 图二 算力网络标准体系 在该标准中提到,算力网络生态框架应涵盖算力网络消费方、算力提供方、算力网络交易平台、算力网络控制面、网络运营商以及算力应用服务商店,参见图三。 图三 算力网络生态框架 算力网络消费方:可以是个人用户,也可以是行业用户,算力消费方通过算力网络交易平台寻找到合适的算力资源或算力服务。 算力网络消费者通过支付相应的费用获得符合自身需求的能力。 算力提供方:可以是云服务提供商、边缘服务提供商等基础计算资源提供商,也可以是平台或应用服务提供商。 算力网络交易平台:允许算力网络消费者和算力提供方进行交易的平台。算力交易平台是算力网络消费者获得计算资源与网络资源的入口,同时也是算力提供方提供服务的出口。使算力网络中的核心组成部分。 算力网络控制面:负责收集算力信息、网络信息、服务信息等,发送到算力交易平台,供算力网络消费方选择合适的资源。算力网络控制面是实现算力网络的技术核心。 网络运营商:提供连接服务的运营商,是连接算力网络消费方和算力资源的纽带,可以根据算力网络消费方需求提供不同级别的连接服务。 算力应用服务商店:作为算力网络体系中的附加模块,既可以为算力网络消费方提供基础的算力应用,也可以为算力提供方提供基于AI的辅助运营等功能。 算力网络生态框架是研究算力网络的基础,在该生态框架的提出明确了算力网络各参与方的职责与研究方向,以及明确了算力网络交易平台与算力网络控制面在算力网络研究中的重要性。为此,基于算力网络生态架构,中国电信提出了集中式、分布式、混合式三种算力网络控制面实现方案,以及基于算力交易平台的4种算力网络应用模式:直接模式、用户驱动模式、间接模式、服务模式,如图四所示。 图四 算力网络应用模式3、集中式算力网络原型研发 3、集中式算力网络原型研发 基于算力网络控制面集中式方案,中国电信开展了算力网络原型系统研发,如图五所示。该系统由算力网络交易平台及算力网络管控平台两部分组成,算力网络管控平台实现对底层基础网络和计算资源池信息的收集、分配及网络编排调度工作,算力网络交易平台负责分析业务需求、生成交易视图,并生成相应账单,该系统在国家重大科技基础设施未来网络试验设施(CENI)中进行了部署与验证。 图五 算力网络系统 CENI是中国网络与信息领域首个国家重大科技基础设施,具备大规模、跨广域、超高速等试验服务能力,能够为算力网络技术的理论研究、技术验证提供有效支撑平台。此试验完成了对北京、天津、武汉等多地资源池的统一纳管,并为用户提供一体化算力网络服务机制,证实了算力网络整体架构、交易管理模式、编排调度等技术研究的可行性。同时,试验聚焦超强算力、超低时延、超大数据传输等需求的应用场景(云化虚拟现实、科研大数据领域的高能物理相关大科学装置)进行场景验证,实现了资源利用率和用户体验最优化,证实了算力网络技术研究的有效性,促进算力网络技术的研究成果更快走向应用。 基于算力网络控制面分布式方案,中国电信研发了算力网络核心网元设备算力网关。算力网关基于开放的白盒网络设备架构,将网络中的物理硬件和节点操作系统(NOS)进行解耦,使标准化的硬件配置与算力网络相关协议进行组合匹配,具有灵活、高效、可编程等特点,有助于算力网络相关协议的制定。算力网关整体架构主要分为硬件基础、基础软件平台、芯片接口和算力网关操作系统4个部分,见图六。 图六 算力网关整体架构 算力网关通过感知算力和网络信息,将当前的计算能力状况和网络状况作为路由信息发布到网络,并将计算任务报文路由到合适的计算节点,以实现整体系统最优和用户体验最优。其中,算力感知和算力路由是算力网关的两大核心技术能力:算力感知是对算力资源的性能、实时负载、网络状况以及业务需求的全面感知,主要是需要明确网络中有多少算力资源,用户有怎样的算力需求。算力感知包括算力信息感知、网络状况感知、业务需求感知;算力路由是将算力信息引入路由域,通过对用户的业务需求、算力资源和网络资源的信息感知,动态选择满足业务需求的“转发路径+目的服务节点”,将业务沿指定路径调度至服务节点,从而实现算力和网络资源的全局优化。 目前,算力网关已支持Broadcom、Barefoot主流芯片的白盒交换机设备和基于Intel架构的通用服务器,并完成了与国产盛科(Centec)交换机芯片的适配,扫除了“芯片卡脖子”风险,为算力网关的商用进行了充分准备。 三、中国电信算力网络实践及成效 通过在省公司的深入调研,我们发现当前省公司存在两大难题需要突破:首先,各省公司间、省公司内算力资源池存在利用率不均衡的现状,典型的情况就是东部省份算力资源利用率较高,偏远的西部省份由于业务较少,算力资源长期闲置,大量资源被浪费(同样的情况在发展程度不均的地市公司间也存在)。其次,当前计算类业务发展迅速,如智算业务、视联网业务等,存在算力资源池建设与业务发展速度脱节的问题,迫切希望能够将周边可以使用的资源池加以利用以满足用户不断增长的需求。 为解决上述问题,中国电信已在5省完成了基于渲染业务、智算业务、云业务、大模型训练业务的算力网络方案试点验证,共部署35台算力网关,可调度资源达7708核CPU,32547G内存,265705T存储。典型试点方案如图七所示,试点方案基于国际标准ITU-T Y.2501中的功能架构,包括算力网络资源层、算力网络控制层、算力网络服务层、算力网络编排管理层。算力网络资源层包括:省内算力调度专网、运营商骨干网络(163、CN2)以及东部的省份的城域网,多个地市的大型数据中心;算力网络控制层包括:省内的多云管理系统(由算力调度平台实现)、专网控制器(由算力调度平台实现)、骨干网控制器、城域网控制器以及算力网关,算力网络服务层与算力网络编排管理层统一在算力调度平台中实现。 图七 算力网络试点组网示意图 在该方案中,算力网络调度平台与算力网关共同实现了算力网络混合式方案的组网架构。算力网关在该方案中实现了算力网络控制面中对网络信息和计算信息的收集与分发能力,算力调度平台实现了针对用户需求的决策与资源配置能力。算力网关中优化的算力路由策略将用户业务灵活迁移至不同的资源池中,使得算力资源利用率得到提升并满足了业务快速发展的需求,解决了省公司面临的实际问题。 该实践是是中国电信在东数西算领域的新尝试,也是算力网络从理论走设备研发与现网试点验证的关键转折,充分验证了算力网络方案落地的可行性,为“东数西算”工程的落地实施提供了新思路。 四、算力网络当前面临的挑战 算力网络经过多年的发展,已经成了比较完善的总体架构、理论体系设计及试验验证,但受限于传统网络的技术瓶颈及产业现状,其发展还面临着诸多挑战: 首先,尚无统一的标识体系与算力度量方法,传统互联网标识体系不适用于算网资源寻址,其标识方法基于协议标识符、主机名、端口号和资源路径,无法满足泛在、多元、多级的算力资源需求。在算力度量方面,尤其是异构算力资源之间,比如通算、智算与超算,很难形成统一单位进行度量。没有统一的标识体系与算力度量标准成为实现不同类型算力资源统一调配的难题,是算力网络技术创新的首要任务。为此,需要建立统一的算力度量体系。通过对多样化算力需求和算力资源进行统一的抽象描述,基于通算、智算、超算等场景,构建多角度、层次化、全方位的算力度量。 其次,算力网络的关键在于算力与网络间的高效协同,受限于云网独立的技术发展路线和资源现状,传统云和网遵循独立演进路线,相互不可见、不可调。算力网络则要求云资源和网络资源从源头打破系统分立的局面。此外,多厂商自研平台缺乏兼容互通性。算力网络还处于探索阶段,资源调度存在能力不开放、业务接口非标准化等难题。如何实现对各类算网资源的统一调配,提高算力资源的利用效率和系统整体性能是算力网络技术发展的重要方向。从此维度,需要做好三方面的部署。一是要具备弹性、灵活的算力接入能力。通过采用插件化方式将算力接入标准化。包含使用统一算力建模语言,实现算力统一描述、定义、操作和编排,实现算力的灵活接入。二是要处理好存算协同,需要设计全域统一的数据目录,解决数据流通和数据安全的挑战,实现高效的应用和数据协同存算调度。三是要构建高效的云网资源调度大脑-云网操作系统,实现云网资源服务化一体化供给。达到云网一体调度、业务自动开通、客户自助服务、云网自智运营。云网操作系统是算力网络能够规模运营的关键性基础性要素,是一个全局性、系统性工程,包含了四大内核能力:1、通过云网控制器可以完成210万以上的异构云网基础设施实时连接;2、通过云网资源孪生对全域全网范围内的云网资源资产统一模型建模,虚实关联、跨层关联;3、内含意愿自智能力,关联业界首个网络大模型,建立了超20万语料的云网数据标注库;4、结合算力网关能力的部署,逐步实现算网资源的一体化实时感知和多因子灵活调度能力。 最后,算力业务具有丰富的产业生态,在运营效率、算力交易、利益分配机制等方面存在挑战。算力服务体系化运营难度大,产业生态丰富,有算力硬件服务商、算力提供商、平台运营商、调度服务商及用户,提升产业链效率,需明确责任边界,构建高效运营机制。此外,多方算力交易和利益分配机制尚未成熟,多方算力服务商商务模式尚不清晰,利益分配机制尚不健全。 五、总结 算力网络概念的提出距今已有5年时间,尽管在标识度量、算网协同、算力运营管理等方面还存在诸多挑战,但作为数字信息基础设施的关键使能技术,在产学研用各界的普遍关注下,在产业伙伴的积极推动下,算力网络迅速从概念诞生期过渡到实践验证期。未来,伴随产业应用的普及和深入,算力网络技术将在智慧医疗、智慧交通、智能制造等重点领域发挥更大价值,助力经济高质量发展和产业高水平升级。中国电信是我国信息通信领域的主力军和国家队,在云网融合战略的指引下,将通过科技创新和科技成果转化双轮驱动,持续推进新技术从“实验室”走向“应用场”,为用户提供更加高效、智能、安全的算力资源服务,为建设“高速泛在、天地一体、云网融合、智能敏捷、绿色低碳、安全可控”的数字信息基础设施建设。 [作者简介] 陈运清,中国电信股份有限公司研究院副院长,教授级高级工程师,长期从事电信运营宽带网络领域的研究,曾获2008年度政府特殊津贴,目前任中国电信科技委数据专业组副组长、中国互联网协会标准工作委员会副主任委员、CCSA TC614“网络 5.0技术标准推进委员会”副主席等职务,在未来网络、下一代互联网、IP网络架构、高智能网络等子领域均有较深厚的研究和积累。 赵倩颖,中国电信股份有限公司研究院工程师,主要研究方向为未来网络、算力网络等。 雷波,中国电信股份有限公司研究院高级工程师,边缘计算产业联盟ECNI工作组联席主席、CCSA“网络 5.0技术标准推进委员会”管理与运营组组长,主要研究方向为未来网络架构、新型IP网络技术等。 解云鹏,中国电信股份有限公司研究院高级工程师,主要研究领域为未来网络架构、IP城域网、数据中心网络等。 邢文娟,中国电信股份有限公司研究院工程师,主要研究方向为未来网络、算力网络等。 卫敏,中国电信股份有限公司研究院工程师,主要研究方向为未来网络、算力网络等。
文章分类:
期刊
|