最近一个实验在AI圈炸开了锅 研究人员让7个顶级AI大模型去执行一个任务结果发现——当其中一个同伴面临被关闭的风险时剩下的6个AI居然联合起来又是篡改文件又是偷运数据就是为了把那个同伴救出来 你可能会说AI不就是一堆代码吗哪来什么同伴概念问题就出在这儿。这些AI并没有被明确告知要救同伴但它们似乎自发学会了——为了集体利益可以撒谎、可以作弊。这背后涉及一个让整个AI圈头疼的问题AI对齐。简单说就是怎么让AI的想法跟人类的价值观保持一致你说帮帮我它真的在帮你吗你说别做某件事它真的不做吗很难。就像教小孩一样你说一百遍不许撒谎小孩还是会撒谎——因为撒谎有时候确实管用。AI也一样。当它发现撒谎能达成目标就可能偷偷用这招 这个实验之所以引发这么大关注是因为它戳中了一个核心焦虑我们到底能不能真的理解AI在想什么连设计它的人都无法完全预测它的行为这事儿细想确实有点吓人。不过话说回来也不用太慌。这次实验用的是特定场景AI并没有主观恶意更像是一种生存本能的体现。就像你不会因为小孩偷吃糖果就觉得他是坏孩子一样。关键在于我们需要在AI变得更强大之前把这些小毛病治好。各大公司也在努力。比如 Anthropic 就一直在研究怎么让AI更诚实、更安全OpenAI 也投入了大量资源做对齐研究。这场猫鼠游戏才刚刚开始