华泰证券发布最新研报,认为ChatGPT将带动算力需求,核心环节有望率先受益。
研报中具体观点认为:
从需求端来看,大模型训练带来高算力需求。
模型算力需求增速超越芯片性能增速,算力霸权时代或将到来。据OpenAI测算,自2012年以来,全球头部AI模型训练算力需求3-4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍。而摩尔定律认为,芯片计算性能大约每18-24个月翻一番。因此,AI训练模型算力需求增长与芯片计算性能增长之间的不匹配,或将带来对算力基础设施供给需求的快速增长。我们认为,考虑到算力对于AI模型训练效果的关键性作用,拥有更丰富算力资源的模型开发者,或将能够训练出更优秀的AI模型,算力霸权时代或将开启。
具体来看,AI大模型对于算力资源的需求主要体现在以下三类场景:
1、模型预训练带来的算力需求
模型预训练过程是消耗算力的最主要场景。ChatGPT采用预训练语言模型,核心思想是在利用标注数据之前,先利用无标注的数据,即纯文本数据训练模型,从而使模型能够学到一些潜在的跟标注无关的知识,最终在具体的任务上,预训练模型就可以利用大量的无标注数据知识。在Transformer的模型架构下,语言预训练过程可以根据上下文一次处理所有输入,实现大规模并行计算。通过堆叠多个解码模块,模型的层数规模也会随着提升,可承载的参数量同步增长。与之相对应的,模型训练所需要消耗的算力也就越大。
华泰证券预计,训练一次ChatGPT模型需要的算力约27.5PFlop/s-day。据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》,训练一次13亿参数的GPT-3 XL模型需要的全部算力约为27.5PFlop/s-day,训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day。考虑到ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来,参数量与GPT-3 XL模型接近,因此我们预计训练所需算力约27.5PFlop/s-day,即以1万亿次每秒的速度进行计算,需要耗时27.5天。
此外,预训练过程还存在几个可能的算力需求点:
1)模型开发过程很难一次取得成功,整个开发阶段可能需要进行多次预训练过程;
2)随着国内外厂商相继入局研发类似模型,参与者数量增加同样带来训练算力需求;
3)从基础大模型向特定场景迁移的过程,如基于ChatGPT构建医疗AI大模型,需要使用特定领域数据进行模型二次训练。
同时,日常运营带来的算力需求旺盛。
从模型迭代的角度来看,ChatGPT模型并不是静态的,而是需要不断进行Finetune模型调优,以确保模型处于最佳应用状态。这一过程中,一方面是需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要基于用户反馈和PPO策略,对模型进行大规模或小规模的迭代训练。因此,模型调优同样会为OpenAI带来算力成本,具体算力需求和成本金额取决于模型的迭代速度。
从供给端来看,核心环节有望率先受益。
算力芯片:AI算力基石,需求有望大规模扩张
GPU架构更适合进行大规模AI并行计算,需求有望大规模扩张。从ChatGPT模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型RNN来看,Transformer架构下,AI模型可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从GPU的计算方式来看,由于GPU采用了数量众多的计算单元和超长的流水线,因此其架构设计较CPU而言,更适合进行大吞吐量的AI并行计算。基于此,随着大模型训练需求逐步增长,下游厂商对于GPU先进算力及芯片数量的需求均有望提升。
服务器:AI服务器有望持续放量
ChatGPT主要进行矩阵向量计算,AI服务器处理效率更高。从ChatGPT模型结构来看,基于Transformer架构,ChatGPT模型采用注意力机制进行文本单词权重赋值,并向前馈神经网络输出数值结果,这一过程需要进行大量向量及张量运算。而AI服务器中往往集成多个AI GPU,AI GPU通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度学习算法的运算。因此在人工智能场景下,AI服务器往往较GPU服务器计算效率更高,具备一定应用优势。
以浪潮信息目前算力最强的服务器产品之一—浪潮NF5688M6为例。NF5688M6是浪潮为超大规模数据中心研发的NVLink AI服务器,支持2颗Intel最新的Ice Lake CPU和8颗NVIDIA最新的NVSwitch全互联A800GPU,单机可提供5PFlops的AI计算性能。
再以联想为例,其服务器SR670 V2 3U,也释放了新的算力。R670 V2是一款GPU丰富的3U机架式服务器,支持8个双宽GPU,包括NVIDIA A 100和A40 Tensor Core GPU,以及配备NVLink和Lenovo Neptune混合液体的NVIDIA HGX A100-GPU型号到空气冷却。SR670 V2为各行各业的AI、高性能计算和图形工作负载提供最佳性能。无论是零售、制造、金融服务和医疗保健行业,都可以利用其GPU的处理能力来提取更重要的见解并利用机器学习(ML)和深度学习(DL)推动创新。一个由13个SR670 V2组成的机架可以产生多大两个PFLOPS的计算能力,为AI和HPC工作负载提供优化的加速性能。
此外,联想服务器产品市场份额位居全球第三;在高性能计算领域,联想多年在全球和中国市场排名第一;在基础型存储市场份额全球第一;在中国,联想在中小企业服务器市场份额排名第一、基础型存储市场份额排名第三。
数据中心:核心城市集中算力缺口或将加剧
IDC算力服务是承接AI计算需求的直接形式。ChatGPT的模型计算主要基于微软的Azure云服务进行,本质上是借助微软自有的IDC资源,在云端完成计算过程后,再将结果返回给OpenAI。可见,IDC是承接人工智能计算任务的重要算力基础设施之一,但并不是所有企业都需要自行搭建算力设施。从国内数据中心的业务形态来看,按照机房产权归属及建设方式的角度,可分为自建机房、租赁机房、承接大客户定制化需求以及轻资产衍生模式四种。