2024年AI评测新风尚：从“史密斯吃面”到游戏对战，谁更接地气？

发布时间：2025-01-01 13:11 来源：ITBEAR 作者：冯璃月

在人工智能技术的飞速发展下，一个令人啼笑皆非的现象悄然兴起：每当有新的视频生成器问世，网络上总会出现一段威尔·史密斯享用意大利面的视频。这一场景，似乎成了新技术试金石，用以检验AI能否以假乱真，重现史密斯大快朵颐的瞬间。TechCrunch对此进行了详细报道，指出这一现象已超越了简单的网络迷因，成为了衡量AI视频生成能力的非正式标准。

有趣的是，史密斯本人也于二月通过Instagram回应，亲自模仿了这一场景，加入了这场由AI引发的网络狂欢。但这仅仅是2024年人工智能领域众多奇特“民间”评测标准中的一个缩影。早前，一位16岁的开发者创建了一款应用，让AI操控《我的世界》游戏，以此测试其建筑设计的智慧。同时，英国一位程序员也搭建了一个平台，让AI在“你画我猜”和“四子棋”等游戏中展开对决，进一步探索AI的娱乐潜能。

尽管人工智能领域不乏专业的性能测试，但这些略显古怪的测试方式却意外走红。原因在于，许多专业的AI基准测试对于普通大众而言，显得过于深奥难懂。企业常常强调AI在解决奥林匹克数学难题或博士级别问题上的能力，然而，大多数人使用聊天机器人的目的，仅仅是进行日常对话或回复邮件，这些高深的测试与他们的实际需求相去甚远。

即便是行业内广泛采用的评测方法，也并非尽善尽美。以备受关注的“聊天机器人竞技场”为例，该平台允许网络用户对AI在特定任务上的表现进行评分，如开发网页应用或生成图像。然而，参与评分的用户大多来自人工智能和科技行业，他们的投票往往基于个人偏好，缺乏代表性，这使得评测结果的公正性和普适性受到质疑。

相比之下，“四子棋”、“我的世界”以及“威尔·史密斯吃面条”等另类基准测试，虽然缺乏严谨性，却因其娱乐性和易理解性而广受欢迎。当然，这些测试也存在局限性，AI在某一任务上的出色表现，并不能直接反映其在其他任务上的能力。例如，能够完美生成“威尔·史密斯吃面条”视频的AI，未必能准确生成汉堡的图像。

更多>同类内容