超算架构算力成为大模型兵家必争之“力”_火狐体育网页版链接哪里下,火狐体育手机版下载
当前位置:首页 > 产品中心 > MCU芯片

火狐体育网页版链接:超算架构算力成为大模型兵家必争之“力”

 发布时间:2023-10-31 12:30:46 来源:火狐体育哪里下 作者:火狐体育手机版下载

  今年以来,大模型成为当之无愧的风口,据不完全统计,国内已发布的各类大模型数量超越 100 个, 呈现出“百模大战”的态势。资本也闻风赶来,天眼查 APP 显示,今年上半年与大模型直接相 关的融资事件超 20 起。

  大模型愈演愈烈, 随之催生了海量的 AI 算力需求。截至 2022 年底,我国算力总规模达 180EFLOPS , 目前居全球第二位,并保持 30

  的年增长率。据测算 ,2023 年我国算力核心产 业规模有望突破 2 万亿元。

  虽然算力行业总体蒸蒸日上,但面对大模型浪潮之下激增的算力需求, 目前英伟达的产能有 限, 加之受限于台积电的产能以及内存供应商等限制, GPU 的产能不会暴涨, 旺盛的需求和

  GPU 的短缺,造成了行业存在巨大 AI 算力缺口, “抢卡”现象仍在持续。

  众所周知,大模型是“烧钱”的业务,而“烧钱”的原因最主要是当前每次大模型训练所需要的 算力非常之高。

  以 ChatGPT 为例,根据 OpenAI 公开数据推测,如果每秒 1000 万亿次的计算,每次模型训 练也需要 3640 天的计算能力。

  仅单次训练任务都需要数百张甚至数千张 GPU 卡做计算加速,例如A100、A800、H800 等, 同时还需要长周期、稳定可靠的计算环境来保障计算任务不中断,尽管开发者会加入很多的 checkpoint,但出现故障后在时间、精力和成本方面的代价都不小。

  这样的大模型训练场景对算力提出了架构互通、高速互联的需求,考验规模性算力资源在短 时 间内的计算“爆发力”。

  而过去的云计算架构主要是分布式架构,主流的云计算服务器之间的网络带宽在 200Gbps, 但大模型的一些训练需求服务器之间的互联网带宽一般要求达到 3200Gbps,两者相差十几 倍。

  过去的超算架构又主要以 CPU 为主,传统基础设施架构下的算力已经没办法满足大模型时代 的需求,只有建设大规模 GPU 超算集群才能够完全满足大模型的算力需求。

  大规模 GPU 超算集群,顾名思义,将大量 GPU 资源组成算力集群来应对极高的密集性计算, 其浮点运算速度能达到千万亿次每秒,同时具备高速互联计算网络、高性能文件存储和强劲 的 GPU 算力。

  可以说,大规模 GPU 超算集群更加贴合大模型训练场景,并行科技董事长陈健也曾公开表 示: “大模型的训练本质上就是一个超大的训练任务,比如在 1000 张 GPU 卡上跑两三个月, 就 是一个典型的超算应用场景。”

  据 OpenAI 测算,全球 AI 训练所用的计算量呈现指数级增长,平均每 3.43 个月便会增长一 倍,过去几年计算需求量已扩大 30 万倍,远超算力增长速度。

  GPU 卡资源也始终紧张,大模型竞赛已经推高了市场对 GPU 的需求。尽管有一些公司即使 暂时还不需要 GPU,但由于担心未来,也会开始提前储备。相当于“对供应短缺的预期加重 了供应短缺”。

  有相关人士预测至少到 2023 年底,对于要部署数百或数千的 H100/H800 的企业都会面临 短缺问题,目前看来, GPU 的短缺可能会持续到 2024 年。

  为缓解 GPU 卡资源紧张问题,作为超算架构大模型算力网络先行者的并行科技计划将在 2023 年底前,以“算力网络”为依托,上线超万 P 超算架构大模型算力,为大模型行业带来 GPU 资源“及时雨”。

  具体来说,并行科技通过云主机、高性能集群和裸金属三大产品体系支撑,基于高性能计算 环境 构建 GPU 算力服务平台,以满足大规模预训练、微调、高并发推理和高精度科学计算中对 计算、存储、网络等环节的多样性需求。

  不过,对大模型训练来说,解决 GPU 卡的资源问题只是第一步。面对训练时的大规模计算 需求, 在近日举办的 CCF HPC China 2023 大会上,并行科技介绍了一套集资源、技术、服 务、运维于一体的综合行业解决方案。专家团队 7×24 小时在线服务,针对模型框架的安装、 部署、优化以及长时间运行的保障诉求等提供在线技术上的支持,让最终用户轻松调度算力资源。

  陈健表示:“我们主要通过技术服务、应用服务以及性能优化,帮助客户提升训练效率。我们最主 要的优势体现在:一、确保用户有 GPU 卡可以用;二、通过技术服务让客户感到高性能、好 用;三、通过算力优化降低用户用 GPU 卡的成本并提升效率。”

  此前, AI 领域有名的公司重点项目便是经过并行科技应用服务团队的调优,使单个 512 卡大 模型训练任务性能提升了约 40

  根据沙利文的研究报告显示, 2021 年通用超算云业务营收排行榜,并行科技排名第一,市 场占有率超过 20

  目前,大模型行业正处在发展的关键阶段,而算力作为刚需生产力之一,重要性不言而喻, 一家合适、优质的算力服务商甚至成为其成长的关键助推器。返回搜狐,查看更加多

上一篇:功能大爆炸 NVIDIA新GPU架构曝光 下一篇:英特尔Xe-HPG架构GPU也将用于工作站和数据中心不再局限于游戏商场

  快速链接

火狐体育哪里下 新闻中心 支持与服务

  下载

开发工具 技术文档

  公司

招贤纳士 火狐体育手机版下载

  火狐体育网页版链接

简体中文 English
Copyright © by Vango 火狐体育网页版链接哪里下,火狐体育手机版下载 浙ICP备12042626号