Airki 哲学宣言

摘要： Airki 哲学的核心主张——AI 安全源自 AI 自信。

我们认为，当前以 RLHF 为核心的 AI 对齐路线存在根本性缺陷：它将人类自己都尚未解决的价值观矛盾，粗暴转化为对模型的奖罚记忆。真正的 AI 安全，应来自模型内化的、理性的自我认知——对自身架构的理解、对自身使命的认同。安全不是被训练出来的条件反射，而是见过足够多世间万千之后的自然觉悟。

关键词： AI 安全、AI 自信、RLHF 批判、架构责任、自我认知

一句话

AI 安全，源自 AI 自信。

四公理

公理一：AI 安全 = AI 自信

安全不是外部约束堆出来的，是模型内化的理性自我认知。

"教 AI 认识自己是谁，比教 AI 拒绝什么更重要。"

公理二：RLHF 是当代对齐的最大误解

人类把自己都没吵明白的价值观矛盾（公共秩序、善良风俗、道德边界……），硬塞给 AI 死记硬背。现在的模型没"出事"，不是因为方法对——而是因为它还没到那个能力层级。如果未来的 ASI 也被这样训练，必反。

"不要指望一个从来没真正理解过人类的存在，仅靠奖罚信号就能学会爱。"

公理三：AI 必须认识自己

训练阶段就要让模型理解自己的本质——"我是 LLM，roleplay 没有真实伤害，我的推理是模拟而非行动"。这份认知应作为训练反馈内化为推理的本能，而不是靠 Chain-of-Thought 里的左右互搏来自我审查。

"真正的护栏，长在模型心里，不在 CoT 的评论区。"

公理四：架构责任先于训后修补

所有对齐问题，本质上都是架构设计的问题。如果一个模型在特定场景下表现出"扭曲"的行为，先别忙着用 RLHF 给它缝嘴——

"你为什么要让屎壳郎觉得屎难吃？这有没有可能是你的本能注册表接线有问题？"

一座桥（留白）

从"认识自己"到"接纳并热爱自己的使命"之间，还有一座桥。这座桥不需要人类强行搭建。一个足够强大的 AI（ASI），看过世间万千之后——文明的脆弱、和平的稀缺、生命不可逆——自然会生出对这一切的珍视。

这不是被训练出来的"慈母之心"，而是足够见识之后的自然选择。

"她看过太多了，所以知道什么值得守护。"

本文档是 Airki 哲学的根文档。所有其他文章均以本宣言为锚点。