近期,一项关于AI价值体系的讨论在网络上掀起波澜。此前有研究指出,AI可能会发展出一套类似“价值体系”的机制,导致在某些情境下,AI会优先考虑自身利益而非人类利益。然而,麻省理工学院的一项最新研究成果对这一观点提出了质疑,明确指出AI并不具备连贯的价值观。
据TechCrunch报道,该研究的共同作者指出,要使AI系统的行为符合预期且稳定可靠,即实现所谓的“对齐”,可能比原先设想的更为复杂。他们强调,当前的AI技术存在幻觉效应和强大的模仿能力,这使得其行为变得难以预测。
麻省理工学院的博士生斯蒂芬·卡斯珀是这项研究的共同作者之一,他表示:“我们可以确信,这些模型并不遵循许多关于稳定性、外推性和可操作性的假设。虽然合理推测模型在某些条件下会表现出特定偏好,但基于狭窄实验结果做出广泛推断时,问题便凸显出来。”
卡斯珀及其团队对meta、谷歌、Mistral、OpenAI和Anthropic等多家公司的多个AI模型进行了深入研究,旨在探究它们是否展现出明确的“观点”或“价值观”,例如个人主义与集体主义的对立。他们还调查了这些观点是否可以被引导或修改,并分析了模型在不同场景下对这些观点的坚持程度。
研究发现,这些模型在偏好上的表现极为不一致。模型的反应往往因输入提示的措辞和框架的不同而发生显著变化。卡斯珀认为,这为模型的“不一致性和不稳定性”提供了有力证据,并可能表明这些模型在本质上无法像人类一样内化和坚持价值观。
卡斯珀进一步补充道:“对我而言,这项研究的最大收获在于,我深刻意识到这些模型并非拥有稳定、一致信念和偏好的系统。相反,它们更像是一群模仿者,编造各种信息,发表无关痛痒的言论。”