在人工智能技术的飞速发展下,一个令人啼笑皆非的现象悄然兴起:每当有新的视频生成器问世,网络上总会出现一段威尔·史密斯享用意大利面的视频。这一场景,似乎成了新技术试金石,用以检验AI能否以假乱真,重现史密斯大快朵颐的瞬间。TechCrunch对此进行了详细报道,指出这一现象已超越了简单的网络迷因,成为了衡量AI视频生成能力的非正式标准。
有趣的是,史密斯本人也于二月通过Instagram回应,亲自模仿了这一场景,加入了这场由AI引发的网络狂欢。但这仅仅是2024年人工智能领域众多奇特“民间”评测标准中的一个缩影。早前,一位16岁的开发者创建了一款应用,让AI操控《我的世界》游戏,以此测试其建筑设计的智慧。同时,英国一位程序员也搭建了一个平台,让AI在“你画我猜”和“四子棋”等游戏中展开对决,进一步探索AI的娱乐潜能。
尽管人工智能领域不乏专业的性能测试,但这些略显古怪的测试方式却意外走红。原因在于,许多专业的AI基准测试对于普通大众而言,显得过于深奥难懂。企业常常强调AI在解决奥林匹克数学难题或博士级别问题上的能力,然而,大多数人使用聊天机器人的目的,仅仅是进行日常对话或回复邮件,这些高深的测试与他们的实际需求相去甚远。
即便是行业内广泛采用的评测方法,也并非尽善尽美。以备受关注的“聊天机器人竞技场”为例,该平台允许网络用户对AI在特定任务上的表现进行评分,如开发网页应用或生成图像。然而,参与评分的用户大多来自人工智能和科技行业,他们的投票往往基于个人偏好,缺乏代表性,这使得评测结果的公正性和普适性受到质疑。
相比之下,“四子棋”、“我的世界”以及“威尔·史密斯吃面条”等另类基准测试,虽然缺乏严谨性,却因其娱乐性和易理解性而广受欢迎。当然,这些测试也存在局限性,AI在某一任务上的出色表现,并不能直接反映其在其他任务上的能力。例如,能够完美生成“威尔·史密斯吃面条”视频的AI,未必能准确生成汉堡的图像。