算力市场风云变幻，产业淘汰赛下企业如何应对新挑战？

发布时间：2024-12-16 12:44 来源：钛媒体APP 作者：江紫萱

在算力市场的风云变幻中，一场由AIGC驱动的智能算力革命正悄然上演。据《中国算力发展报告（2024年）》揭示，全球算力规模在2023年底已达到910EFLOPS（FP32），年度增长率高达40%。尤为引人注目的是，智能算力规模的增长更为迅猛，同比增长达到了136%，远超整体算力市场的增速。

这股算力洪流不仅吸引了云服务商等传统算力供应商的加码投入，还促使众多传统企业纷纷跨界入局算力租赁领域。数据显示，仅在2023年下半年，就有包括鸿博股份、莲花控股、锦鸡股份在内的近40家上市公司涉足这一领域，算力市场的热度可见一斑。

然而，好景不长，算力市场的热潮并未持续太久。部分企业在短短一年内便主动终止了跨界项目，算力租赁市场的降温速度令人咋舌。究其原因，主要是对算力市场的资金投入、技术门槛等关键因素估计不足，导致在激烈的市场竞争中败下阵来。

算力市场的这一波动，也引发了行业内的深刻变革。鸿博股份CFO兼英博数科CEO浦威指出，国内智算行业正经历着前所未有的变化。从通用大模型训练算力集群的规模来看，已从千卡级别跃升至万卡级别，垂直大模型的算力使用也从定量模式转向弹性模式。随着大模型的商业化落地和多模态模型的普及，推理需求迅速增长，算力市场正逐渐从训练阶段转向推理阶段。

在通用大模型训练方面，国内外科技巨头纷纷建设大规模算力集群，如OpenAI和xAI的十万卡集群，以及国内字节跳动、阿里、百度等企业的数万甚至十万卡规模。对于更多厂商而言，万卡集群已成为当下能够触及的天花板。浦威表示，在国家的有序引导下，新的智算中心正朝着万卡规模发展，没有万卡级别的通用模型将难以进一步迭代。

与通用大模型相比，垂直大模型主要面向科研、教育、金融等细分行业，其算力需求更具分散性、临时性和动态变化的特点。因此，垂直大模型正逐步从大规模定量模式向可伸缩、弹性的算力模式转变，以兼顾成本和体验。浦威指出，许多企业正在基于基座模型进行大量的行业精调和微调，他们的算力需求非常分散，仅在模型微调等操作时才使用算力，对成本也极为关注。

随着大模型的商业化落地和多模态模型的普及，推理算力需求迅速增长。相关数据显示，从2022年到2027年，中国AI服务器的推理工作负载比例预计将从58.4%增长至72.6%，逐步取代训练成为主导。多模态模型的普及推动了文本生成、图像生成、视频生成等广泛的推理需求，AI模型应用也从通用模型延展至垂直行业。

面对算力市场的这一变化，算力服务商需要与时俱进。英博数科副总裁宋琛表示，虽然大模型企业的格局相对稳定，但核心算力需求并未遇冷。她指出，仍在做预训练的大模型企业，其训练规模反而越来越大，对集群的规模要求也在增加。因此，算力产业不会缩减，但会用变化淘汰反应不及的厂商。

为了应对算力需求的变化，英博云专注于为头部客户提供量身定制的集群选型、建设、运维等整体解决方案，同时为有弹性算力需求的中小客户提供GPU和CPU资源混合的弹性K8S集群服务。宋琛表示，英博云更专注于GPU算力云领域，为客户提供灵活定制服务以及精准把控成本，填补了细分市场的空白。

为了评估算力服务的质量，英博云还提出了“单位有效算力成本”的成本评估框架。通过算力投入成本与有效计算能力的比值，可以客观评价算力服务的质量。英博数科副总裁秦伟俊表示，英博云对整个链条通盘考虑，从IDC建设到训练过程中的折损、故障，再到模型框架的选择和训练效率，都为客户提供算力提升的空间。

在智算中心的核心网络难题方面，英博数科CTO李少鹏指出，只有在单一物理空间内，使用高功率机柜，通过统一的计算网和存储网，将所有GPU服务器组成单一集群，才能实现万卡级别的并行训练。他强调，当前算力成本主要来自设备采购、机电支持和运维费用，而算力资源的实际利用率普遍偏低，这与硬件匹配、调度策略以及训推框架配置等因素密切相关。