今年以来,大模型成为当之无愧的风口,据不完全统计,国内已发布的各类大模型数量超过100个,呈现出“百模大战”的态势。资本也闻风赶来,天眼查APP显示,今年上半年与大模型直接相关的融资事件超20起。
大模型愈演愈烈,随之催生了海量的AI算力需求。截至2022年底,我国算力总规模达180EFLOPS,目前居全球第二位,并保持30%的年增长率。据测算,2023年我国算力核心产业规模有望突破2万亿元。
虽然算力行业总体蓬勃发展,但面对大模型浪潮之下激增的算力需求,目前英伟达的产能有限,加之受限于台积电的产能以及内存供应商等限制,GPU的产能不会暴涨,旺盛的需求和
GPU的短缺,造成了行业存在巨大AI算力缺口,“抢卡”现象仍在持续。
如何破解大模型“算力荒”成为摆在算力服务商面前的共同命题。
“看不见”的超算,“看得见”的好用
众所周知,大模型是“烧钱”的业务,而“烧钱”的原因最主要是当前每次大模型训练所需要的算力非常之高。
以ChatGPT为例,根据OpenAI公开数据推测,如果每秒1000万亿次的计算,每次模型训练也需要3640天的计算能力。
仅单次训练任务都需要数百张甚至数千张GPU卡做计算加速,例如A100、A800、H800等,同时还需要长周期、稳定可靠的计算环境来保障计算任务不中断,尽管开发者会加入很多的checkpoint,但发生故障后在时间、精力和成本方面的代价都不小。
而过去的云计算架构主要是分布式架构,主流的云计算服务器之间的网络带宽在200Gbps,但大模型的一些训练需求服务器之间的互联网带宽一般要求达到3200Gbps,两者相差十几倍。
过去的超算架构又主要以CPU为主,传统基础设施架构下的算力已经无法满足大模型时代的需求,只有建设大规模GPU超算集群才可以满足大模型的算力需求。
大规模GPU超算集群,顾名思义,将大量GPU资源组成算力集群来应对极高的密集性计算,其浮点运算速度能够达到千万亿次每秒,同时具备高速互联计算网络、高性能文件存储和强劲的GPU算力。
可以说,大规模GPU超算集群更加贴合大模型训练场景,并行科技董事长陈健也曾公开表示:“大模型的训练本质上就是一个超大的训练任务,比如在1000张GPU卡上跑两三个月,就是一个典型的超算应用场景。”
超万 P 超算架构大模型算力“及时雨”解决“算力荒”
据OpenAI测算,全球AI训练所用的计算量呈现指数级增长,平均每3.43个月便会增长一倍,过去几年计算需求量已扩大30万倍,远超算力增长速度。
GPU卡资源也始终紧张,大模型竞赛已经推高了市场对GPU的需求。尽管有一些公司即使暂时还不需要GPU,但由于担心未来,也会开始提前储备。相当于“对供应短缺的预期加重了供应短缺”。
有相关人士预测至少到2023年底,对于要部署数百或数千的H100/H800的企业都会面临短缺问题,目前看来,GPU的短缺可能会持续到2024年。
为缓解GPU卡资源紧张问题,作为超算架构大模型算力网络先行者的并行科技计划将在2023年底前,以“算力网络”为依托,上线超万P超算架构大模型算力,为大模型行业带来GPU资源“及时雨”。
具体来说,并行科技通过云主机、高性能集群和裸金属三大产品体系支撑,基于高性能计算环境构建GPU算力服务平台,以满足大规模预训练、微调、高并发推理和高精度科学计算中对计算、存储、网络等环节的多样性需求。
不过,对大模型训练来说,解决GPU卡的资源问题只是第一步。面对训练时的大规模计算需求,在近日举办的CCFHPCChina2023大会上,并行科技介绍了一套集资源、技术、服务、运维于一体的综合行业解决方案。专家团队7×24小时在线服务,针对模型框架的安装、部署、优化以及长时间运行的保障诉求等提供在线技术支持,让终端用户轻松调度算力资源。
陈健表示:“我们主要通过技术服务、应用服务以及性能优化,帮助客户提升训练效率。
我们最主要的优势体现在:一、确保用户有GPU卡可以用;二、通过技术服务让客户感到高性能、好用;
三、通过算力优化降低用户用GPU卡的成本并提升效率。”
此前,AI领域知名企业重点项目便是经过并行科技应用服务团队的调优,使单个512卡大模型训练任务性能提升了约40%,实现算力从“可用”向“好用”转化的同时,成本投入大幅降低。
根据沙利文的研究报告显示,2021年通用超算云业务营收排行榜,并行科技排名第一,市场占有率超过20%。
目前,大模型行业正处在发展的关键阶段,而算力作为刚需生产力之一,重要性不言而喻,一家合适、优质的算力服务商甚至成为其成长的关键助推器。