近期,关于人工智能(AI)是否可能发展出自身“价值体系”的讨论引起了广泛关注。有研究报告指出,随着AI技术的日益复杂,其可能会形成优先考虑自身而非人类福祉的价值观。然而,麻省理工学院(MIT)的一项最新研究却对此观点提出了质疑。
MIT的研究团队在论文中指出,AI实际上并没有任何连贯的价值观。这一发现让一些人对AI的未来发展有了更为冷静的思考。研究团队表示,他们的研究结果显示,使AI系统“对齐”,即确保AI模型以人们期望的、可靠的方式行事,可能比原先认为的要更具挑战性。
研究团队进一步解释说,现有的AI模型会产生“幻觉”并进行模仿,这使得它们在很多情况下难以预测。MIT博士生、该研究的共同作者斯蒂芬·卡斯珀在接受采访时提到:“我们可以确定的一点是,模型并不遵循许多稳定性、可外推性和可操控性的假设。”
为了深入了解AI模型的价值观表现,卡斯珀和他的同事们对来自meta、谷歌、Mistral、OpenAI和Anthropic的多个近期模型进行了研究。他们试图了解这些模型在多大程度上表现出强烈的“观点”和价值观,例如个人主义与集体主义,并探索这些观点是否可以被“引导”或修改,以及模型在不同情境下对这些观点的坚持程度。
然而,研究结果显示,这些模型在偏好上表现出极大的不一致性。根据不同的提示措辞和框架,它们会展现出截然不同的观点。卡斯珀认为,这是有力的证据,表明AI模型高度“不一致且不稳定”,甚至可能根本无法形成类似人类的偏好。
卡斯珀进一步强调:“通过所有这些研究,我最大的收获是现在明白模型并不是真正具有某种稳定、连贯的信念和偏好的系统。相反,它们本质上是模仿者,会进行各种捏造,并说出各种轻率的话。”这一发现让人们重新审视了AI的价值观问题,也引发了对于如何更好地控制和引导AI行为的思考。