在AI领域,一场颠覆性的变革正随着DeepSeek的崛起而悄然发生。曾经,构建万卡智算中心被视为科技巨头们争夺AI高地的入场券,微软、亚马逊、谷歌等国际大厂,以及字节跳动、百度、华为等国内企业纷纷投入巨资,搭建起庞大的GPU集群,以期在AI竞赛中占据先机。
万卡集群的搭建成本高昂,但其所提供的强大算力,使得训练复杂的大模型成为可能。然而,DeepSeek-V3的出现,却打破了这一固有格局。在训练中,DeepSeek-V3仅使用了2048个H800 GPU,却在多个标准测试中取得了优异表现,甚至在某些测试中超越了此前的大模型。这一成就,引发了业界对于AI入场券的新一轮思考。
不可否认,万卡集群在大模型训练端仍具有其必要性。但与此同时,大模型的私有化部署已成为业内共识,企业纷纷寻求建设自己的小型智算中心。DeepSeek的出现,更是加速了这一趋势。如今,企业仅需部署1~10台服务器(百卡之内),或稍大规模的服务器集群,即可实现高效的AI业务。这无疑降低了AI的门槛,使得更多的企业能够参与到这场AI热潮中来。
DeepSeek的创新性方法,不仅降低了训练成本,还推动了数据中心芯片的变革。未来,训练端的高端GPU需求增速可能会放缓,而推理端的算力需求则将长期呈现增长趋势。这一变化,将对芯片市场产生深远影响。Gartner等研究机构纷纷预测,未来推理的集群算力规模将超过训练,推理芯片的市场占比也将不断提升。
推理芯片与训练芯片在应用场景和需求上存在着显著差异。训练芯片更注重计算性能和存储能力,而推理芯片则更注重单位能耗算力、时延和成本的综合指标。因此,推理芯片市场呈现出更加百花齐放的态势。国内外众多企业纷纷布局推理芯片市场,以期在这一新兴领域占据一席之地。
DeepSeek之所以能够以较小的硬件资源实现卓越的AI性能,其中一个重要原因就在于其对硬件进行了极致的工程化改造。通过自定义CUDA内核和算子融合技术,DeepSeek大幅提升了GPU的模型FLOP利用率,从而在相同硬件条件下完成了更多的计算任务,提升了训练效率。这一创新性的做法,被业界专家称为“中国AI的换道超车”。
更为重要的是,DeepSeek的这一举动,将倒逼芯片厂商从“拼制程”转向“算法适配性”设计。未来,芯片厂商将需要预留更多接口,以支持动态算法迭代。可编程NPU架构等新型芯片设计,将成为业界的主流趋势。这一变化,将使得芯片在较长时间内保持竞争力,面对新算法时无需重新设计硬件,而是通过软件升级等方式来适配新算法。
DeepSeek不仅在硬件上进行了创新,还在算法层面进行了深度优化。通过使用比CUDA更底层的PTX指令集进行硬件算法优化,DeepSeek在一定程度上摆脱了对CUDA高层框架的依赖。同时,DeepSeek还采用了OpenAI提出的Triton编程语言来编写GPU代码,为适配更多类型的算力芯片奠定了基础。
DeepSeek的这一系列创新举措,不仅推动了AI技术的快速发展,还为芯片市场带来了新的竞争格局。未来,AI芯片领域将不再是英伟达一家独大,更多的芯片公司将有机会参与到这一市场中来。同时,处于英伟达上游的存储芯片公司,如三星电子、SK海力士等,也将面临转型的机遇与挑战。
DeepSeek的成功发布,使得科技公司对英伟达高端芯片的需求减少,但市场对于AI芯片的总需求却并未减少。正如经济学家所言,技术进步虽然提高了资源的使用效率,但需求的增加常常会导致总消耗量反而增加。因此,对于三星电子、SK海力士等半导体巨头而言,这既是挑战也是机遇。它们需要摆脱对英伟达的依赖,拥抱更广阔的市场,为AI服务提供多样化的产品阵容。
亚马逊首席执行官安迪·贾西曾表示,DeepSeek的技术突破将推动人工智能整体需求的增长。随着AI推理等技术成本的下降,企业将有更多的预算用于开发创新项目,从而加大整体技术支出。这一趋势,将为AI领域带来更多的发展机遇和市场空间。
在DeepSeek的引领下,AI领域正迎来一场前所未有的变革。未来,随着技术的不断进步和市场的不断发展,我们有理由相信,AI将为人类社会带来更多的惊喜和可能。