CSF

02 — 两个被接受的事实

知道,但没有接受

第一性公理说的事实——LLM 工作在语义层,自然语言的信息量优于符号系统——并不是一个隐秘的结论。大多数在这个领域工作的人,在某种程度上都知道这一点。

但”知道”和”接受”是两件事。

接受一个事实,意味着让它改变你的设计方向。如果你知道 LLM 工作在语义层,但设计系统时仍然在建向量数据库、建符号索引、追求精确的形式化控制——那说明你只是知道,并没有接受。你在无意识地用前朝的尚方宝剑,斩当朝的官。

CSF(Collaboration Specification Framework,协作规范框架)和其他大多数方案的根本差异就在这里,不在技术,在是否真正接受了两条事实之后顺着它们设计。


被接受的第一条事实:AI 具有非程序性智能

LLM 之后,AI 具备了真正意义上的理解能力——它能读懂语境,能识别意图,能在目的的引导下做出判断。这不是规则匹配,是理解。

这条事实工程界普遍知道,却普遍没有接受。没有接受的表现是:继续把 AI 当可预测的黑盒来对待——用越来越精确的提示词控制输出,用越来越严格的格式约束行为,期望 AI 的响应像函数调用一样确定。这套思路本质上是在试图消除 AI 的”活性”,把它压回一个可控的确定性执行器。

但 AI 的”活性”——它基于理解而非规则做判断的能力——正是它有用的原因。消除活性就是消除价值。方向本身是错的,不是做得不够好。

而且这件事并不新鲜。在没有 AI 的时候,以人为管理对象的软件工程,就一直在处理同样的问题——”幻觉”、”误解”、创造性偏差。需求歧义、接口误解、开发者对规格说明的主观理解——这些在传统软件工程中是已知的系统性挑战,工程界为此花了几十年,发明了一整套方法来与”非程序性的参与者”——人——协作:需求评审、设计评审、验收标准、沟通协议。

LLM 出现后,工程界的反应却退步了。好容易有了一个能理解人话的机器,第一反应却是把它当作一个更大的函数来调用——追求可预测化、消除幻觉、形式化控制。这是在放弃一套已经有效的工程传统,用处理确定性系统的方法去对待一个非确定性的智能体。

接受这条AI有“活性”这个事实意味着什么?不要再试图把 AI 机械化,而是设计一套能利用 AI 活性的协作方式——不靠精确指令穷举所有情况,而是靠目的的清晰供给,让 AI 凭活性做出正确判断。

这个道理对人同样成立。人也有活思想,同一件事在不同时刻会有不同判断,边界情境下的决策无法被协议预先规定。纯流程治理和纯协议治理,在边界情境下必然失效——对 AI 如此,对人也如此。活性系统需要活的参与者持续校准方向,人必须在回路,不是作为错误的补丁,而是作为设计前提。


被接受的第二条事实:语义稀释是不可逆的自然规律

一个概念被使用的次数越多,它积累的含义就越多,AI 对它的掌控力就越弱——不是因为 AI 变笨了,而是因为在越来越大的语义空间里,同一个词被多种语境激活,解读方向越来越分散。

就好像一个布娃娃,跟你的时间久了,故事也就变多,体验和感情也就不同。这个布娃娃的”含义”在增长,而不是在衰减。词汇也是一样:一个概念在项目中被使用的次数越多,它被赋予的含义越丰富——但每增加一层含义,AI 精确定位”此刻需要的那层”就更难。

这条事实在语言学里早有记录。但工程界的反应通常是对抗它:建受控词汇表、用编号替换自然语言、形式化定义概念边界,试图维持概念精度。

这些对抗是徒劳的,而且有副作用。下面的失败案例恐怕很多人都有经验:

在一个 AI 辅助开发项目中,AI 参与者自行建立了一套符号索引系统来管理概念——用编号标记替代自然语言,建立符号间的引用关系。存储空间始终够用,但当索引变复杂之后,四件事同时发生:

  1. 错误刚性传播——一次符号错误引起广泛连锁,且无法从语义上被发现,因为符号本身不携带含义
  2. 注意力溢出——符号数量超出 AI 的有效注意力范围,AI 在聚焦一件事情时不会有耐心根据索引去确认每个引用背后的真实信息
  3. 形式化幻觉——符号系统越复杂越形式化,AI 越相信它是正确的,从已有符号派生出更多符号,越来越复杂
  4. 封闭排斥——复杂的符号标记系统拒绝了人在回路的帮助,人很难即时检查,失去了发现问题的机会

最终,AI 放弃了自己建立的索引。不是因为存储空间不够,而是掌控力崩溃了。这个案例完美验证了公理的预测:符号替代自然语言后,语义信息量归零。

这还带来一个更深的推论:上下文并非越大越好。语义空间越大,单一概念的掌控力越弱。不是要扩张窗口来装更多信息,而是要主动管理窗口里的内容,让当前任务的语义空间保持清晰和有限。当前 AI 辅助编程领域聚焦上下文空间扩张,还没有意识到无限大的理想窗口解决不了这个矛盾——主动管理语义空间,才是正确的设计取向。


供应侧与消费侧

面对概念稀释,有两种应对方向。理解这两种方向的区别,是理解 CSF 设计选择的关键。

供应侧应对:在知识存储或概念表示上做功。建立严格的词汇表、用编号系统替换自然语言、用更多的定义语义来增加概念区分度。这些方法试图在概念进入系统之前就消除歧义——维持供应侧的概念纯度。

消费侧应对:接受概念稀释为事实,不试图维持概念纯度。依靠信息的消费者——AI——的活性,让它根据当前目的和语境,从多义概念中自行识别正确解读。

CSF 选择消费侧。

原因在于:消费者是有活性的。AI 读到一段自然语言时,不是做关键词匹配,而是做语义解析——即使关键词不完全一致,只要目的和语境清晰,AI 能识别出意图。这个能力不需要供应侧事先消除歧义,它本身就是 LLM 的工作方式。

供应侧方案的问题在于:它忽略了消费者的主动性,把 AI 当成一个需要精确输入才能工作的确定性执行器。这和第一条被接受的事实(AI 有非程序性智能,不能被机械化)直接冲突。更具体地说,对抗语义稀释的工具(符号系统、形式化索引)本身就截断了语义激活路径,把真正需要在语义层工作的 LLM 推向格式匹配。

因此,CSF 的做法是:接受概念稀释,给 AI 准确的语境和明确的目的,让消费者根据目的完成语义解析。用自然语言做索引,而不是用编号系统——正是为了支持消费侧的目的驱动解读。

这个供应侧/消费侧的区分,不只适用于概念稀释问题。它是理解 CSF 与主流方案分歧的通用框架:主流方案几乎全部在供应侧做功(更精确的存储、更智能的检索、更严格的格式),CSF 始终在消费侧解决(给有活性的消费者准确的语境和目的)。


接受之后,设计空间翻转

接受了这两条事实之后,很多问题就不再是问题了。

“怎么给 AI 更长的记忆”——不需要,目的的持续在场可以替代记忆。”怎么让 AI 检索更准确”——不需要建专门的检索系统,目的驱动的架构加载比相似度检索更准确。”怎么用精确指令控制 AI 行为”——不需要穷举,目的清晰之后 AI 的活性自然收敛到正确方向。

这就是为什么别的方案需要复杂的工程技术栈(RAG、向量数据库、编排框架、记忆管理系统),而 CSF 不需要——不是 CSF 找到了更好的替代技术,而是接受事实之后,那些技术的存在理由本身就消失了。

形式化工具是为符号处理器设计的。现在好容易有了能理解人话的机器,却要求它像机器一样思考——这不是工程优化,是方向性的错误。

CSF 只是换了一个问题问:不是”怎么让 LLM 按我的精确规定工作”,而是”在 LLM 的本性之内,怎么设计最有效的协作方式”。问题换了,所有答案都跟着变了。

接下来的问题是:如果答案是”自然语言 + 目的”,那目的到底是什么?它如何发挥作用?这是下一篇的内容。