在科幻电影中,人工智能常常展现出超越人类智慧的特性,从《2001:太空漫游》中的HAL 9000到《流浪地球》中的Moss,这些角色以其高效、理性和逻辑缜密给人留下深刻印象。如今,随着大语言模型和深度学习技术的快速发展,人们对于实现类似Moss这样的“全能助手”级人工智能充满了期待。然而,要跨越这一鸿沟,实现AI在复杂场景中的快速理解和应对,仍面临诸多挑战。
在机器学习的广泛应用中,数据分类、预测、规划与生成等任务均需要对复杂多变的情境进行理解和应对。然而,传统方法往往依赖于海量的数据和庞大的计算资源,在处理高维度和大规模数据时显得力不从心。为了解决这一难题,Karl Friston在arxiv上发表了一篇题为“Renormalising generative models:From pixels to planning: scale-free active inference”的论文,提出了一种新的解决方案。
Friston通过主动推理(Active Inference)构建了尺度不变的生成模型(Renormalising Generative Model, RGM),将分类、预测与规划等问题转化为推理问题,并通过最大化模型证据的统一框架,有效解决了视觉数据、时序数据分类及强化学习中的多种挑战。该框架引入的重整化群技术能够高效处理大规模数据集,为AI在复杂场景中的应用提供了新的可能。
主动推理是一种基于当前观察现象来预测未来的模型。它不仅被动等待事件发生,还通过主动观察来推断事件的原因。在网球比赛中,球员需要根据对手的动作和策略来做出选择,这种“对未来有所猜测但不可确定的程度”被称为自由能。通过观察和行动,球员可以降低这种不确定性,从而做出最佳决策。RGM正是利用这种原理,通过最小化预期自由能来实现对复杂场景的理解和应对。
RGM的工作流程包括策略选择、隐藏状态生成和结果生成。通过预期自由能的softmax函数选择策略,生成隐藏状态序列,并最终通过模态生成最终结果。这一过程中,模型不仅关注当前状态,还通过跨时间和空间的多层次描述来应对复杂场景。
在图像和视频处理方面,RGM通过量化、分块处理和奇异值分解等方法实现图像压缩和重建。以MNIST数字分类问题为例,RGM通过对图像进行预处理和快速结构学习,生成具有多个层次的模型,并通过主动学习优化参数,实现了高效的分类和识别。这种方法不仅适用于图像分类,还可用于视频生成和声音处理。
在声音处理方面,RGM将像素替换为频率和时间上的体素,通过连续小波变换和逆变换实现声音的压缩和复现。以鸟叫声和爵士音乐为例,RGM成功实现了声音的压缩和生成,展示了其在音频数据处理方面的潜力。
RGM还可应用于规划推理(强化学习),帮助智能体在不确定性下进行决策。与强化学习不同,主动推理基于自由能原理进行决策,通过最小化预期自由能来选择最佳行动方案。在Atari类游戏中的应用表明,RGM能够从随机动作的结果序列中自动组装出能够以专家水平进行游戏的智能体。
Friston及其同事的研究表明,RGM在多种场景下均表现出色,通过最小化预期自由能来实现高效的数据处理和决策。这一成果不仅为人工智能的发展提供了新的思路和方法,还为物理学、生物学和计算机科学等多个领域的研究提供了新的启发。随着技术的不断进步,我们有望看到更加智能、高效的AI系统出现在我们的生活中。