大模型评测乱象频出,如何构建科学评测体系成行业焦点

   发布时间:2024-12-23 14:13 作者:沈瑾瑜

在人工智能领域,大模型的评测一直是衡量其能力的重要标尺。如同一场精心设计的考试,评测不仅揭示了技术的现状,还指引着模型开发的未来方向,帮助开发者识别并解决潜在问题。

然而,构建一套科学、公正的大模型评测体系远比想象中复杂。大模型如同多才多艺的考生,精通多种语言,跨领域知识广博,一旦洞悉考试模式,便能通过反复练习取得高分,这无疑给评测的公平性带来了挑战。

全球范围内,大模型评测榜单琳琅满目,据统计,数量已超过50个。不同机构依据各自标准设立的评测体系,使得同一模型在不同榜单上的排名大相径庭,这一现象引发了公众对评测公正性的广泛讨论。

为了应对这一挑战,智源研究院于2023年推出了Flageval(天秤)大语言模型评测体系,该体系覆盖了语言、多模态、语音语言等多种模型类型,并针对不同类型设计了详细的评测指标和方法。近日,智源研究院再次发布了升级后的Flageval新版本,现已涵盖全球800多个开源和闭源模型,评测题目超过200万条。

为了确保评测的公平性,智源研究院采取了一系列措施。对于开源模型,采用模型发布方推荐的推理代码和运行环境;对于闭源模型,则通过公开的API以普通用户身份进行访问,确保所有模型面对相同的评测条件。智源研究院智能评测组负责人杨熙表示,评测过程中,模型并不知道自己正在接受测试,从而避免了针对性优化的可能。

尽管如此,大模型评测仍面临诸多挑战。一些公司为了取得好成绩,不惜采取各种刷分手段,如反复提交不同版本的模型,甚至提前获取评测数据集进行训练。这些行为严重损害了评测结果的公正性和可靠性。

为了应对这些挑战,智源研究院不断更新评测题目,引入更难的考题以拉开模型间的差距。同时,评测数据集不仅包括开源社区的公开数据集,还涵盖了智源研究院自建的数据集,以确保模型不会针对特定数据集进行优化。智源还尝试了一种新颖的评测方式——让大模型进行实时辩论。

在辩论赛中,模型需要理解辩题、构建论点、反驳对方观点,这不仅考验了模型的思辨能力、逻辑推理能力,还锻炼了其语言表达能力和综合素质。智源研究院在现场演示了一场大模型之间的实时辩论赛,辩题为“功夫熊猫和孙悟空谁更适合做队友”。两个大模型展开了激烈的对话,引经据典,谈话充满张力,让观众直观地感受到了不同模型的能力差异。

智源研究院副院长兼总工程师林咏华强调,榜单排名不应成为评价模型的唯一标准。用户在选择模型时,应根据自身需求和应用场景,综合考虑模型的各项指标。评测还需要更加关注模型的实际应用能力,如响应速度、用户体验等。她表示,大模型评测是一个复杂的系统工程,需要行业共同努力,不断探索新的评测方法,构建高质量的评测数据集,并加强合作,推动统一评测标准的建立。

同时,林咏华还提到,随着技术的不断发展,更多创新的大模型评测体系将不断涌现。这些评测体系将更加贴近实际应用场景,全面考察模型的综合能力,为人工智能技术的健康发展提供有力支撑。

 
 
更多>同类内容
全站最新
热门内容
本栏最新