【技术分享】5000字详解OpenAI超级对齐四年计划：定义、挑战与方法

导读

超级智能是一把双刃剑，有助于解决许多重要问题，同时也可能削弱人类的权力并威胁我们的安全。为了治理这些风险，急需建立新的治理机构并解决AI模型的对齐问题。OpenAI于今年7月首次提出超级对齐的概念，并宣布投入20%的计算资源，花费4年的时间全力打造一个超级对齐（Superalignment）系统，意在解决超级智能的对齐问题。

图：OpenAI官网宣布开始构建超级对齐系统

随着OpenAI官方团队的介绍和多方解析不断发布，超级对齐的面貌也逐渐清晰地呈现在大家的面前，本文结合现有资料详细介绍超级对齐的概念、为什么要实现超级对齐以及如何实现超级对齐，希望这一愿景能够促进发展符合人类目标和价值观的安全AI，并不断吸纳更多研究者加入这一行列。

什么是超级对齐

1.1 超级对齐的目标

超级对齐旨在构建一个能够与人类水平相媲美的自动对齐研究器。其目标是尽可能地将与对齐相关的工作交由自动系统完成。在使用LLM或构建通用AI系统时，人们意识到它们的技能组合并不一定与人类相同。它们在某些方面可能更为强大，例如现有的语言模型在翻译或知识储备方面表现出色。然而，AI系统在其他一些任务上可能相对薄弱，比如算术方面的能力。

因此，研究者们面临的问题是，应该将哪些类型的任务交由AI系统，并按照什么顺序进行？这样一来，这个系统可以预测人类将更多地专注于那些无法交由AI系统完成的任务。在这个过程中，AI系统完成的工作占整体工作的比例将会越来越大，而人类研究者将能够更有效地取得真正的进展。

在第一个阶段，研究者们希望这个研究器能够实现机器学习模型，进行实验并观察结果。第二个阶段，研究者们希望这个研究器能够解决更高级、更广泛的问题，例如确定需要进行哪些实验来提升可扩展监督，或者在可解释性方面取得进展。目前第一个阶段上已经有了卓有成效的研究，而第二个阶段研究者们仍尚在探索中。

大家有问题欢迎在评论区交流

【技术分享】5000字详解OpenAI超级对齐四年计划：定义、挑战与方法

评论

发表回复 取消回复

发表回复取消回复