近日,一场聚焦新质生产力产业实践的洞见活动在京成功举办,该活动由环球时报、中国科协新技术开发中心及清华大学技术创新研究中心等机构联合发起,吸引了众多行业内外专家的关注。
活动中,清华大学计算机系教授、中国工程院院士郑纬民针对国内大模型产业的发展趋势发表了独到见解。他指出,2024年,国内大模型产业将呈现出两大显著特点:一是从基础大模型向多模态的拓展,二是大模型与各行各业的深度融合。郑纬民院士认为,我国在推动大模型与行业结合方面具有显著优势,有望在全球范围内走在前列。
郑纬民院士进一步剖析了大模型生命周期的五个关键环节,并逐一指出了各环节存在的问题。在数据获取环节,他强调了大模型训练所需处理的数据量之庞大,以及数据读取频繁所带来的挑战。数据预处理环节则面临数据质量不高的问题,需要耗费大量时间进行预处理,以GPT-4为例,其训练过程中有近半年的时间用于数据预处理,效率亟待提升。
针对当前国际主流的数据处理软件Spark,郑纬民院士指出其优势在于生态良好、可扩展性和容错性强,但同时也存在处理速度慢、受限于Java语言以及内存成本高、容量低等缺点。为此,清华大学的研究团队正在探索使用C++编写部分模块,并采取措施降低内存占用,以期将数据预处理时间减半。
在模型训练环节,郑纬民院士强调了可靠性的重要性。他指出,大规模计算系统在训练过程中频繁出错会严重影响训练效率。当前业界的做法是定期记录软硬件状态,以便在出错时恢复到上一个标记点继续训练,但这一方法仍面临数据量大、复杂度高的问题。行业正在积极探索更高效的读写方案以提高训练效率。
模型微调环节则涉及基础大模型在特定行业或场景下的二次训练。郑纬民院士以医疗行业为例,阐述了基础大模型如何结合医院数据进行二次训练,进而得到医疗领域的大模型。这一过程可以连续进行多次,逐步缩小模型的应用领域,提高模型的针对性和准确性。
推理环节则是将训练好的大模型应用于具体场景的关键步骤。郑纬民院士指出,AI芯片作为大模型产业的焦点,其发展对于支撑国产大模型训练具有重要意义。他强调,产业各界应着力探索构建国产万卡系统和异构卡联合训练,以优化国产AI芯片的性能和生态。
郑纬民院士还指出,尽管国产AI芯片在近年来取得了显著进步,但用户接受度仍有待提高。他认为,这主要归因于国产AI芯片的生态不够完善。他强调,良好的生态应能够支持软件在不同硬件平台上的快速移植和优化,以提高整体性能和用户体验。
活动中,科大讯飞联合创始人、高级副总裁江涛也分享了科大讯飞在AI领域的最新进展。他透露,科大讯飞已联合华为推出国内首个万卡规模大模型算力平台“飞星一号”,该平台能够实现大模型训练推理一体化设计,有效解决大模型时代的“卡脖子”问题。江涛还表示,讯飞星火大模型已迭代至4.0 Turbo版本,在综合指标上已达到GPT-4 Turbo水平,并在数学能力和代码能力上超越GPT-4。
华为云大数据与AI领域总裁尤鹏则对未来基础模型的发展趋势进行了预测。他认为,未来基础模型可能会收敛到少数几家企业手中,而大量的企业则将专注于行业模型的开发和行业落地。尤鹏还结合AI To B实践提出了三个观点:一是并非每个企业都需要大规模建设AI算力;二是选择业界主流基础模型应用于自己的场景是更经济的选择;三是并非所有应用都需要追求大模型,原有的专业小模型可以继续使用,并通过大模型进行调度和优化。