什么样的AI算安全？OpenAI发布灾备架构应对大模型风险

更新时间：2023-12-19 12:08:30作者：橙橘网

（观察者网讯）当地时间12月18日，OpenAI在官网发布灾备架构测试版介绍文档，描述该架构应对流程以跟踪、评估、预测和防范日益强大的模型带来的灾难性风险。OpenAI规定了四个安全风险等级，并表示只有得分在“中”或以下的模型才能部署。

OpenAI灾备架构测试版文档图片来源：OpenAI

据路透社报道，由微软支持的OpenAI只会在确认没有网络和核等方面安全威胁的情况下才会部署其最新的技术。此外，该公司还正在创建一个咨询小组来审查AI安全报告，并将其审查结果发送给公司的高管和董事会。这样可以确保虽然AI运行的决策权在高管手中，但董事会可以推翻这些决策。

OpenAI灾备架构图片来源：OpenAI

该文档的提出被认为是OpenAI进一步加强AI应用安全监管的一个尝试。近期由于AI的快速发展，AI应用的安全性问题被广泛关注。

对于AI应用安全这一问题，长期以来有两派观点，即有效加速主义和AI对齐思想。

有效加速主义（Effective accelerationism，简称为“e/acc”）是一种21世纪基于科技发展而兴起的哲学思想。其支持者一般认为，由人工智能驱动的进步是一种伟大的社会平等器，应该被推动前进。因此，不惜一切代价，采用包括加速商业化在内的一切手段，推动技术进步才是唯一在道德上合理的行动方针。值得注意的是，一般认为OpenAI的现任CEO山姆·奥特曼（Sam Altman）是有效加速主义的支持者。

与有效加速主义对应的是AI对齐（AI alignment）思想，该派理论则更注重AI安全问题，强调人工智能系统的对齐问题，即如何确保未来超出人类智能的超级人工智能系统的行动目标与人类的目标一致。因为如果人工智能系统的目标与人类的目标不一致，可能会导致不可预见和潜在的危险后果。OpenAI中负责AI安全并参与罢黜CEO山姆·奥特曼的首席科学家伊利亚·苏茨克韦尔（Ilya Sutskever）等人，以及此前从OpenAI脱离并创立大语言模型Claude的达里奥·阿莫代（Dario Amodei）等人都是AI对齐思想的支持者。

据路透社、The Information等媒体报道，之前震惊世界的OpenAI“宫斗”事件就源自于有效加速主义和AI对齐思想的路线之争。

11月22日，路透社报道称OpenAI拥有一个尚未公布的新模型Q*。该模型能够解决某些数学问题，虽然现阶段其数学成绩仅达到小学生的水平，但在相关测试中取得的成绩让研究人员对Q*未来的成功非常乐观，并认为Q*在推理模型方面相较于之前的大模型有了巨大的进步。这可能意味着人类将快速实现完全超越人类本身智能的超级AI。

据悉，Q*的出现加剧了包括首席科学家伊利亚·苏茨克韦尔在内对于AI安全性的担忧，并最终促使董事会决定解雇支持有效加速主义的山姆·奥特曼。

值得注意的是，早在今年3月，包括前OpenAI投资者，著名人士马斯克等上千人曾签署联名信，公开信呼吁人类暂停开发比目前GPT-4模型更强大的人工智能，为时至少6个月。

近期除了OpenAI在官网发布灾备架构测试版外，由OpenAI首席科学家伊利亚牵头的，于今年7月建立地“超级对齐”团队，在本月15日发布了其成立以来的第一篇论文。在其最新的研究中，该团队提出了一个技术路线：使用GPT-2级别的AI对GPT-4进行监督并伴以一定的置信度损失，实现了对于GPT-4的微调。这样的GPT-4可以在NLP任务上恢复到接近GPT-3.5级别AI的性能。

该论文指出，通过上述方法可以实现“弱到强泛化”（Weak-to-Strong Generalization）训练，证实了我们可以通过使用更弱、更可控的模型来微调更强大的人工智能模型，使其达到与传统训练方法所训练出的AI更相近的性能。这为“AI对齐”的设想提供了一条实际可行的技术路径。