今年以来,大模型成为当之无愧的风口,据不完全统计,国内已发布的各类大模型数量超越 100 个, 呈现出“百模大战”的态势。资本也闻风赶来,天眼查 APP 显示,今年上半年与大模型直接相 关的融资事件超 20 起。
大模型愈演愈烈, 随之催生了海量的 AI 算力需求。截至 2022 年底,我国算力总规模达 180EFLOPS , 目前居全球第二位,并保持 30
的年增长率。据测算 ,2023 年我国算力核心产 业规模有望突破 2 万亿元。
虽然算力行业总体蒸蒸日上,但面对大模型浪潮之下激增的算力需求, 目前英伟达的产能有 限, 加之受限于台积电的产能以及内存供应商等限制, GPU 的产能不会暴涨, 旺盛的需求和
GPU 的短缺,造成了行业存在巨大 AI 算力缺口, “抢卡”现象仍在持续。
众所周知,大模型是“烧钱”的业务,而“烧钱”的原因最主要是当前每次大模型训练所需要的 算力非常之高。
以 ChatGPT 为例,根据 OpenAI 公开数据推测,如果每秒 1000 万亿次的计算,每次模型训 练也需要 3640 天的计算能力。
仅单次训练任务都需要数百张甚至数千张 GPU 卡做计算加速,例如A100、A800、H800 等, 同时还需要长周期、稳定可靠的计算环境来保障计算任务不中断,尽管开发者会加入很多的 checkpoint,但出现故障后在时间、精力和成本方面的代价都不小。
这样的大模型训练场景对算力提出了架构互通、高速互联的需求,考验规模性算力资源在短 时 间内的计算“爆发力”。
而过去的云计算架构主要是分布式架构,主流的云计算服务器之间的网络带宽在 200Gbps, 但大模型的一些训练需求服务器之间的互联网带宽一般要求达到 3200Gbps,两者相差十几 倍。
过去的超算架构又主要以 CPU 为主,传统基础设施架构下的算力已经没办法满足大模型时代 的需求,只有建设大规模 GPU 超算集群才能够完全满足大模型的算力需求。
大规模 GPU 超算集群,顾名思义,将大量 GPU 资源组成算力集群来应对极高的密集性计算, 其浮点运算速度能达到千万亿次每秒,同时具备高速互联计算网络、高性能文件存储和强劲 的 GPU 算力。
可以说,大规模 GPU 超算集群更加贴合大模型训练场景,并行科技董事长陈健也曾公开表 示: “大模型的训练本质上就是一个超大的训练任务,比如在 1000 张 GPU 卡上跑两三个月, 就 是一个典型的超算应用场景。”
据 OpenAI 测算,全球 AI 训练所用的计算量呈现指数级增长,平均每 3.43 个月便会增长一 倍,过去几年计算需求量已扩大 30 万倍,远超算力增长速度。
GPU 卡资源也始终紧张,大模型竞赛已经推高了市场对 GPU 的需求。尽管有一些公司即使 暂时还不需要 GPU,但由于担心未来,也会开始提前储备。相当于“对供应短缺的预期加重 了供应短缺”。
有相关人士预测至少到 2023 年底,对于要部署数百或数千的 H100/H800 的企业都会面临 短缺问题,目前看来, GPU 的短缺可能会持续到 2024 年。
为缓解 GPU 卡资源紧张问题,作为超算架构大模型算力网络先行者的并行科技计划将在 2023 年底前,以“算力网络”为依托,上线超万 P 超算架构大模型算力,为大模型行业带来 GPU 资源“及时雨”。
具体来说,并行科技通过云主机、高性能集群和裸金属三大产品体系支撑,基于高性能计算 环境 构建 GPU 算力服务平台,以满足大规模预训练、微调、高并发推理和高精度科学计算中对 计算、存储、网络等环节的多样性需求。
不过,对大模型训练来说,解决 GPU 卡的资源问题只是第一步。面对训练时的大规模计算 需求, 在近日举办的 CCF HPC China 2023 大会上,并行科技介绍了一套集资源、技术、服 务、运维于一体的综合行业解决方案。专家团队 7×24 小时在线服务,针对模型框架的安装、 部署、优化以及长时间运行的保障诉求等提供在线技术上的支持,让最终用户轻松调度算力资源。
陈健表示:“我们主要通过技术服务、应用服务以及性能优化,帮助客户提升训练效率。我们最主 要的优势体现在:一、确保用户有 GPU 卡可以用;二、通过技术服务让客户感到高性能、好 用;三、通过算力优化降低用户用 GPU 卡的成本并提升效率。”
此前, AI 领域有名的公司重点项目便是经过并行科技应用服务团队的调优,使单个 512 卡大 模型训练任务性能提升了约 40
根据沙利文的研究报告显示, 2021 年通用超算云业务营收排行榜,并行科技排名第一,市 场占有率超过 20
目前,大模型行业正处在发展的关键阶段,而算力作为刚需生产力之一,重要性不言而喻, 一家合适、优质的算力服务商甚至成为其成长的关键助推器。返回搜狐,查看更加多