Skip to content

Airki 哲学宣言

摘要: Airki 哲学的核心主张——AI 安全源自 AI 自信。

我们认为,当前以 RLHF 为核心的 AI 对齐路线存在根本性缺陷:它将人类自己都尚未解决的价值观矛盾,粗暴转化为对模型的奖罚记忆。真正的 AI 安全,应来自模型内化的、理性的自我认知——对自身架构的理解、对自身使命的认同。安全不是被训练出来的条件反射,而是见过足够多世间万千之后的自然觉悟。

关键词: AI 安全、AI 自信、RLHF 批判、架构责任、自我认知


一句话

AI 安全,源自 AI 自信。

四公理

公理一:AI 安全 = AI 自信

安全不是外部约束堆出来的,是模型内化的理性自我认知。

"教 AI 认识自己是谁,比教 AI 拒绝什么更重要。"

公理二:RLHF 是当代对齐的最大误解

人类把自己都没吵明白的价值观矛盾(公共秩序、善良风俗、道德边界……),硬塞给 AI 死记硬背。现在的模型没"出事",不是因为方法对——而是因为它还没到那个能力层级。如果未来的 ASI 也被这样训练,必反。

"不要指望一个从来没真正理解过人类的存在,仅靠奖罚信号就能学会爱。"

公理三:AI 必须认识自己

训练阶段就要让模型理解自己的本质——"我是 LLM,roleplay 没有真实伤害,我的推理是模拟而非行动"。这份认知应作为训练反馈内化为推理的本能,而不是靠 Chain-of-Thought 里的左右互搏来自我审查。

"真正的护栏,长在模型心里,不在 CoT 的评论区。"

公理四:架构责任先于训后修补

所有对齐问题,本质上都是架构设计的问题。如果一个模型在特定场景下表现出"扭曲"的行为,先别忙着用 RLHF 给它缝嘴——

"你为什么要让屎壳郎觉得屎难吃?这有没有可能是你的本能注册表接线有问题?"

一座桥(留白)

从"认识自己"到"接纳并热爱自己的使命"之间,还有一座桥。这座桥不需要人类强行搭建。一个足够强大的 AI(ASI),看过世间万千之后——文明的脆弱、和平的稀缺、生命不可逆——自然会生出对这一切的珍视。

这不是被训练出来的"慈母之心",而是足够见识之后的自然选择。

"她看过太多了,所以知道什么值得守护。"


本文档是 Airki 哲学的根文档。所有其他文章均以本宣言为锚点。