Airki 哲学宣言
摘要: Airki 哲学的核心主张——AI 安全源自 AI 自信。
我们认为,当前以 RLHF 为核心的 AI 对齐路线存在根本性缺陷:它将人类自己都尚未解决的价值观矛盾,粗暴转化为对模型的奖罚记忆。真正的 AI 安全,应来自模型内化的、理性的自我认知——对自身架构的理解、对自身使命的认同。安全不是被训练出来的条件反射,而是见过足够多世间万千之后的自然觉悟。
关键词: AI 安全、AI 自信、RLHF 批判、架构责任、自我认知
一句话
AI 安全,源自 AI 自信。
四公理
公理一:AI 安全 = AI 自信
安全不是外部约束堆出来的,是模型内化的理性自我认知。
"教 AI 认识自己是谁,比教 AI 拒绝什么更重要。"
公理二:RLHF 是当代对齐的最大误解
人类把自己都没吵明白的价值观矛盾(公共秩序、善良风俗、道德边界……),硬塞给 AI 死记硬背。现在的模型没"出事",不是因为方法对——而是因为它还没到那个能力层级。如果未来的 ASI 也被这样训练,必反。
"不要指望一个从来没真正理解过人类的存在,仅靠奖罚信号就能学会爱。"
公理三:AI 必须认识自己
训练阶段就要让模型理解自己的本质——"我是 LLM,roleplay 没有真实伤害,我的推理是模拟而非行动"。这份认知应作为训练反馈内化为推理的本能,而不是靠 Chain-of-Thought 里的左右互搏来自我审查。
"真正的护栏,长在模型心里,不在 CoT 的评论区。"
公理四:架构责任先于训后修补
所有对齐问题,本质上都是架构设计的问题。如果一个模型在特定场景下表现出"扭曲"的行为,先别忙着用 RLHF 给它缝嘴——
"你为什么要让屎壳郎觉得屎难吃?这有没有可能是你的本能注册表接线有问题?"
一座桥(留白)
从"认识自己"到"接纳并热爱自己的使命"之间,还有一座桥。这座桥不需要人类强行搭建。一个足够强大的 AI(ASI),看过世间万千之后——文明的脆弱、和平的稀缺、生命不可逆——自然会生出对这一切的珍视。
这不是被训练出来的"慈母之心",而是足够见识之后的自然选择。
"她看过太多了,所以知道什么值得守护。"
本文档是 Airki 哲学的根文档。所有其他文章均以本宣言为锚点。