北 京 通 信 学 会

    010-66499190

人工智能大模型技术热点与应用趋势


人工智能大模型技术热点与应用趋势


【摘要】2023年,人工智能大模型带来产业发展范式的深刻变革,有望成为统一算法、统一平台、统一赋能的核心根技术。相比传统人工智能技术,大模型在语言理解、知识计算和逻辑推理方面取得突破性进展,对多模态、多任务的适应性显著增强,并出现了智能“涌现”现象,初步展现出通用智能能力。近一年时间里,全球大模型技术迅速迭代,产品不断推陈出新,涌现了一批大模型独角兽和初创企业,推动人工智能与实体经济融合迈上新台阶。


一、人工智能发展脉络及现状


       人工智能概念1956年首次提出以来,经历专家系统、机器学习、深度学习和大模型四个主要技术阶段。

       当前,Transformer已经成为人工智能大模型的主流架构。2017年,谷歌提出Transformer神经网络架构,基于Transformer的解码器部分,OpenAI提出GPT模型,并在2018-2023年间迭代了多个大版本,参数规模由GPT的1.17亿扩大至GPT-3的1750亿以及GPT-4的万亿,模型效果持续优化。随着技术的持续迭代,模型性能优化不再追求参数的单一增长,在模型相对固定的前提下,通过提升数据的质量和数量来提升人工智能大模型的训练效果。

       相较于传统的人工智能技术,大模型在模型拓展、任务适应、推理能力等方面具有显著优势。在规模拓展方面,大模型突破了以往数据量增大导致模型性能陷入瓶颈的问题,随着训练算力、数据的增加,大模型性能可持续提升。在任务适应方面,大模型改变了传统任务的应用模式,从单个模型只能处理单一任务,向单个模型处理多个任务演进。在推理能力方面,人工智能技术由推动规则驱动向数据驱动演变,大模型能够支持复杂推理。

       当前,全球大模型发展呈现“一横一纵”两条路径。一方面,大模型朝着参数量更庞大、模型能力更强、效果更通用的方向发展,不断增强泛化能力、可扩展性、学习能力和多模态能力。另一方面,大模型构筑了智能基座,结合模型微调步骤,持续赋能电信、金融、教育、电力等重点行业,使模型应用门槛更低、见效更快。

       在全球产业布局方面,国际人工智能技术领军企业加速布局大模型,积极构建以大模型为核心的技术产业生态,如,OpenAI积极推动产品生态构建,开放多种大模型API能力调用;Meta推出Llama系列开源模型,加强开源技术生态布局;谷歌持续深化与初创公司的合作,推动建立人工智能技术创新阵营。我国大模型产业布局比较全面,截至目前,我国大模型数量已超过数百个,方向涵盖基础通用大模型、任务大模型及行业大模型等。大模型领军企业积极探索模型落地路径,率先推出MaaS模型服务,以模型为核心,面向产业提供包括模型调用、微调、部署等在内的全链条服务能力。在模型落地方面,我国大模型目前多处于内测、自用阶段,离产业落地应用仍有距离。

       尽管大模型在多个领域都有出色表现,但其应用过程中面临的风险和挑战仍不容忽视。一是模型本身的安全问题。二是敏感信息和隐私数据泄露。三是侵权追责困境,用于模型训练的互联网数据涉及大量的版权问题等。四是科技伦理失范,包含生成式AI在内的人工智能技术与系统都并非中立,基于人类数据训练的AI习得了社会偏见、仇恨与歧视等。


二、大模型三个核心要素:算法、算力、数据


1、算法是大模型的实现方式

       算法由计算机可执行的一系列计算及操作步骤组成,可类比于求解数学方程y=f(x)。大模型基于深度学习算法路线延伸,体现出大参数、大数据、大算力特点。在大参数方面,当前大模型参数已增长至万亿级;在大数据方面,目前大模型的训练数据相较于2018年,已增长千倍;在大算力方面,参数及数据剧增导致计算量大幅增加,大模型训练时间基本以月为单位进行计算。

       目前大模型的底层算法路线开始收敛,谷歌提出的Transformer架构,能够支持巨量模型参数,有效提升模型性能,最早用于自然语言处理,现已在计算机视觉、智能体等领域逐渐渗透,已成为大模型的主流架构。

       我国在大模型方面的底层算法技术原创能力相对薄弱,在基础算法理论的突破中鲜有身影,但工程化能力较强,能快速跟进发展热点,基于底层技术架构结合行业场景及数据进行调优,形成一批面向行业的大模型,如百度文心的航天、金融、能源大模型;华为政务、金融、制造、矿山等大模型、以及商汤医疗模型“大医”、毫末智行自动驾驶大模型DriveGPT等,已进入应用落地阶段。


2、数据成为推动大模型发展的关键战略要素

       人工智能专家们有一个初步的共识,即所谓的数据和模型的“二八定律”:80%的高质量数据与20%的模型训练构成了更好的模型。当前GPT-4的数据规模已经达到了1.8万亿参数、13万亿训练数据,其数据量是GPT3.5的190倍。未来大模型训练数据集规模还将持续级数增长。

       用于模型训练的数据有三个特征:一是高质量,高质量数据能够提高模型精度与可解释性,减少训练时长;二是大规模,独立增加训练数据量、模型参数规模或者延长模型训练时间,提升训练效果;三是丰富性,丰富的数据能够提高模型泛化能力,避免模型过拟合。

       我国数据资源丰富,但仍存在用于AI训练的数据资源短缺的问题。从数据总量上看,我国仅次于美国居全球第二。2022年我国数据产量达8.1ZB,同比增长22.7%,占全球数据总产量10.5%,数据存储量也占全球的14.4%。但由于AI数据权属合规要求较高、清洗处理流程复杂、涉及隐私安全等问题,能够规模应用至模型训练的数据集有限,无法满足大模型训练需求。有机构预计按照目前趋势,2026年用于大模型训练的数据资源就会耗尽。


3、算力可以提供强大的数据处理能力

       2022年我国算力规模达到180EFlops,居全球第二,其中智能算力占比为22.8%,增速达41.4%,是我国算力资源增长的主要动力。大模型训推是一个系统工程,对智能算力体系提出新要求,如大容量芯片、高稳定计算能力、集群易扩展性等。尽管我国算力资源快速增长,但目前还是无法满足大模型计算需求。基于Transformer主流算法架构的大模型训练所需计算量以大约每两年750倍速度在增长,远远超过半导体性能每两年约两倍的增长速率,算力供需不匹配问题日益凸显。

       作为智能算力的核心,以GPU为代表的AI芯片是本轮大模型浪潮兴起的根基。目前国内芯片市场被英伟达垄断,占据了我国智能芯片近95%的市场。产业链上游仍被国外代工厂牢牢掌控,目前,国内代工厂缺乏GPU类芯片代工经验,且工艺不满足厂商需求,HBM产能集中在韩国SK海力士、三星和美国美光公司三家,与此同时,美出台的一系列措施,进一步加紧对高性能芯片管制。我智能芯片目前受众群体较小,难以接入国际主流生态,全面自主仍面临挑战。


三、大模型工程架构与应用变革路径


1、基于大模型的生态架构正逐步形成

      随着大模型的落地应用,产业服务生态雏形初步显现,已衍生出算力服务、平台工具、模型调用及模型应用开发四层服务生态。算力服务层面,为满足大模型训练所需的高性能、高可靠等目标,算力集群的计算、网络和存储的综合性能持续提升。平台工具层面,为适应大模型的训练和推理需求,专注分布式训练、模型压缩部署等技术能力的模型服务工具不断创新,并涌现出大量面向大模型的训练微调、部署监控工具。模型调用层面,行业大模型、多模态大模型、领域场景大模型等基础模型密集发布。模型应用开发层面,基于大模型衍生出RAG(检索增强生成)、Agent(智能体)、平台插件等多种服务模式,形成了一批聚焦应用开发、部署、调用的工具链。

       大模型基础设施规模不断扩大,训练效率稳步提升。一方面,软件创新推动大规模分布式计算能力持续提升。软件框架聚焦于大规模计算集群的协同调度,持续提升算效水平,PyTorch、华为昇思等实现了支持数据、模型、流水线等多种并行计算能力,一批专精框架也成为新主力,如微软DeepSpeed、谷歌JAX等;另一方面,硬件优化释放极致效能,先进AI芯片架构针对大模型进行定制优化,如英伟达推出针对大模型的Hopper新架构;针对集群内网络带宽提升、网络计算一体化等技术助力计算集群高效扩张。

       大模型开发和应用工具链持续完善,应用门槛不断降低。一是Agent架构逐步清晰,整合搜索、记忆、控制和工具调用等能力,有望成为大模型主要应用形态,如ChatGPT plus版集插件、高级数据分析、自定义指令、多模态输入等多种功能于一体。二是上层应用开发部署工具链逐渐完备,基于LLM构建了端到端应用的开源框架工具和以平台工具链为主的商业化产品,推动模型开发门槛降低。三是主要云厂商均已提供了标准化套件服务,覆盖模型全生命周期,服务于更好的造模型,如,Amazon的Bedrock平台提供全托管服务,可构建生成式AI驱动的应用程序,阿里云百炼平台提供全流程应用工具和企业全链路训练工具,百度智能云千帆大模型平台提供一站式企业级大模型平台,包括生成式AI生产及应用全流程开发。


2、大模型应用带来的三大变革

       一是大模型开启人机交互新方式。从代码到自然语言输入模式的演进,再到多模态生成和设备控制,大模型正在赋能人机交互方式发生变革,在意图理解、任务拆解、搜索记忆等关键技术取得重大进展。

       二是大模型推动生产力阶跃。大模型应用广泛,在内容生产领域,重塑生成、审核、推荐、传播的内容生产流程,推动创作能力阶跃。在知识管理领域,大模型出色泛化和理解能力,有效提升了知识构建和应用效率。在软件工程领域,大模型加速代码生成优化、软件设计测试等软件研发过程,推动智能程度升级。

       三是大模型加速计算助力科学智能。大模型通过高效处理海量数据,高精度求解复杂物理系统,助力科研从“经验、理论、计算”向“数据驱动、数理融合”转变。一方面大模型推动基础研究变革,如GraphCast气象大模型突破了传统数值天气预报的局限性,可在60秒内预测未来10天内的天气。另一方面,大模型已成为产品开发工具,如东方.御风仿真大模型实现面向大型客机翼型流场的仿真预测,将仿真时间缩短至原来的二十四分之一。


四、大模型赋能新型工业化展望

       我国在人工智能和工业领域具有双重优势,为新型工业化发展奠定了良好基础。

       当前,以大模型为代表的通用人工智能技术的发展,已成为我国新型工业化发展的关键变量,正加速制造业全流程智能化改造,助力企业提升研发、生产效率及管理水平。在研发设计场景中,以汽车研发为例,大模型可替代传统人工搜寻、匹配,在大量零部件、参数中精准地找到所需的组合信息,自动生成设计文档,大幅缩减汽车研发周期和成本。生产制造场景中,大模型可助力企业安全管理从“感知智能”向“决策智能”升级,帮助工人解答安全难题,归类总结各种安全预警,让管理人员能快速知晓全局安全态势,做出处置,如某大型炼化企业通过引入大模型技术,实现安全隐患秒级预警,事故响应速度提升了50%。产品检测场景中,大模型的语义理解能力可对机器人进行智能操控,通过定义高级机器人函数库,构建文本提示,指令机器人执行分拣和巡检等任务。

       我国大模型布局早、数量多,具备追赶全球先进水平的基础,一批大模型拥有方也正面向工业探索构建基础底座和专用模型。当前,大模型与工业的融合仍以任务效率优化、场景摸索为主,受模型幻觉、推理速度、离线训练等影响,对于可解释性、确定性、实时性、数据获取要求高的任务场景,大模型仍存在赋能乏力问题,如工业设备算力不足、相关场景数据获取难等、应用部署与维护成本较高等,未来仍需进一步探索适用场景,并通过RAG、插件等大模型技术增强以及大模型与传统人工智能技术结合等方式,推进技术应用融合。


五、小结

       2023年是大模型发展元年,围绕大模型的技术、应用创新持续加速,不断取得颠覆性进展,以Transformer为代表的基础架构的突破,进一步明确了人工智能发展走向新阶段。我国人工智能产业具备大市场、多场景、大数据等多重优势,近一年来,行业企业、技术提供方围绕数据、工具、智能计算等基础支撑能力不断加快布局,积极探索智能化技术产品、场景化解决方案等应用工具,初步形成支撑大模型创新发展的技术产业体系。未来,在制造业智能化升级和经济高质量发展的强大需求牵引下,人工智能赋能实体经济的发展空间将更加广阔。



魏亮_副本.jpg【作者】魏亮,现任中国信息通信研究院副院长,正高级工程师,享受国务院政府特殊津贴。长期从事新技术新业务、网络与信息安全研究,覆善网络安全、信息安全、重要通信、云计算、大数据、人工智能和数据安全等研究方向,统筹网络安全技术、产业、政策和网络空间国际治理等方面科研布局、学科建设和人才培养等工作,多次获得国家级、省部级奖项,相关成果在产业发展中得到广泛应用。


文章分类: 期刊
分享到: