DeepSeek崛起:低成本训练大模型,能否成为AI界新星?

   发布时间:2025-01-02 11:29 作者:杨凌霄

在年终岁末之际,杭州的一家名为“深度求索”(DeepSeek)的创业公司,凭借其开源的大模型DeepSeek-V3,在人工智能界掀起了波澜。据悉,该模型在多个基准测试中表现卓越,性能可媲美需付费使用的GPT-4o。

尤为DeepSeek-V3是在中国公司面临制裁、算力受限、显卡供应不足的背景下,通过采用小数据集蒸馏等创新方法,实现成本控制的产物。据官方技术论文透露,v3模型的总训练成本仅为557.6万美元,远低于GPT-4o等模型约1亿美元的训练成本。因此,DeepSeek被戏称为“AI界的拼多多”。

这一消息不仅打破了“大模型智能程度等同于英伟达算力”的传统认知,还在一定程度上影响了英伟达的股价。消息的传播过程颇具戏剧性,先是国外消息被引入国内,经由阑夕的微博点明DeepSeek的真正突破在于GPU需求减少,随后这一观点又被译介回国外,引发了硅谷的广泛关注。

在此过程中,DeepSeek团队成员罗福莉加入小米的消息也备受瞩目。尽管她早已自我官宣这一决定,并在业界小范围流传,但自被媒体冠以“95后天才少女”的称号后,这一消息的影响力骤增。这不仅为小米带来了话题度,更在一定程度上为DeepSeek做了宣传,证明了其团队实力的雄厚。

在DeepSeek出圈之前,AI业界对其评价颇高。尽管有人质疑其训练数据集可能使用了ChatGPT的输出结果,但这并未影响其声誉。毕竟,如果仅凭ChatGPT的输出就能取得如此成就,那么任何人都可以尝试。实际上,谷歌也在采用类似的方法,其Gemini模型的事实核查人员是外包的,并允许他们借助其他模型生成的结果来核对答案。

在AI界,每当有新的概念或技术被提出,都会引发一阵热潮。月之暗面(Kimi)便是一个典型的例子。它通过提出“超长文本(tokens)”的概念,成功吸引了大量粉丝和媒体的关注。随后,Kimi获得了大量融资,并在B站等平台上进行大力营销,使得大模型推广的成本不断攀升。

然而,随着时间的推移,Kimi的发展逐渐趋于平稳,而新的概念和技术不断涌现。DeepSeek此次提出的“低成本训练”概念,无疑为其赢得了新的发展机遇。在资本市场,能够像月之暗面一样备受青睐的创业公司并不多见,而DeepSeek凭借这一新概念,有望成为新的投资标的。

当然,在AI领域,没有哪家公司能够永远保持领先地位。即便是强大的OpenAI,也需要通过推出新的概念和技术来巩固其地位。对于创业公司而言,能够定义一次新概念,便已经足够幸运。这将为其带来大量的融资和关注,为其未来的发展奠定坚实的基础。

在AI行业的激烈竞争中,DeepSeek凭借其创新的技术和理念脱颖而出。未来,随着技术的不断发展和市场的不断变化,DeepSeek能否继续保持其领先地位,我们将拭目以待。

不过,无论结果如何,DeepSeek都已经为AI行业的发展做出了重要贡献。它的成功不仅为其他创业公司树立了榜样,也为整个行业带来了新的活力和希望。

同时,我们也期待更多的创业公司能够像DeepSeek一样,勇于创新、敢于突破,为AI行业的发展注入更多的活力和动力。

 
 
更多>同类内容
全站最新
热门内容
本栏最新