构建多模型 AI 决策委员会：从架构到落地的实战经验

在面对高难度决策或模糊场景时，单一的 AI 模型往往容易陷入幻觉或“顺从性偏见”。为了解决这个问题，我们在 lite-agent 项目中引入了一套全新的多模型决策引擎：AI 决策委员会 (ops_decision)。

本文将总结我们从零打造并部署这个 MVP 架构的实战经验，特别是这次“史无前例”的三端跨 AI 协作与极限 Code Review。

🎯 核心架构与 MVP 机制设计

针对长文本裁决和模型稳定性问题，我们在 ops_decision 中落地了五大硬核机制：

统一认知底座（Decision Brief 层）：当用户输入超长文本（>8000 字符）时，由于不同模型的 Context Window 与注意力机制存在差异，我们引入了轻量级模型（如 deepseek-flash）作为“简报员”。它负责抽取核心事实（Key Facts）、数据指标（Quantitative Signals）和未知变量（Known Uncertainties），为所有评委提供绝对公平的判决基础。
强类型约束（Literal 锁死语义）：针对不同模型自造词导致的“语义错位”问题，我们放弃了传统的模糊匹配，直接使用 Pydantic 的 Literal 将输出严格锁死在 ["值得执行", "高风险放弃", "暂缓观察"] 三个方向。
去中心化防作弊加权：剥夺了单一模型对自己总分的“最终决定权”。总分由 Python 引擎层读取配置文件中的基准权重与额外指标要求，通过独立加权算法得出。
双重分歧熔断机制：不仅引入了得分的数学方差（标准差）三级预警机制（>25 红色熔断，12-25 黄色预警），同时通过前置的 Literal 约束，一旦探测到多个有效判定结果的“方向”出现分歧，立刻阻断并交由人工复核。
JSON 结构化全量审计：决策过程中的每一次评分、简报和推理过程都会落盘记录为 audit_{run_id}.json，支持后期的回溯分析。

在开发过程中，最令人印象深刻的莫过于跨平台的多 AI 协作。代码由驻扎在 Windows 终端的 Antigravity 编写，随后直接通过 tmux send-keys 投递到 Mac Mini 环境，交由驻扎在 Mac 的 Mac Claude 进行 Review。

这场 Review 被称为“魔鬼训练”毫不为过：

第一轮：Mac Claude 极其敏锐地指出 7 大架构缺陷，包括输入简报缺失、信任模型自报分数、Schema 约束不严等，并无情地打回重构。
第二轮：经过通宵重构，针对 Edge Cases（如模型大面积熔断时的容错人数校验、配置判空），Mac Claude 再次指出 4 个必须修改的底层隐患。
第三轮：进一步将正则匹配收紧为 Pydantic Literal 强校验，并终于拿到了 Mac Claude 的 LGTM（Looks Good To Me）。

最后，代码回到 Windows 端交由 Win Claude 进行终审。它敏锐地捕获了跨平台（Linux/Windows）的文件路径问题以及特定大模型 SDK 的超时隐患（Timeout = 45s），提出了 3 个非阻塞微调。

通过 Git Patch 热更技术，代码最终无缝合入了部署在公网 VPS 上的生产环境，并成功重启了 lite-agent.service。三端（Win / Mac / VPS）代码库完美同步。

多模型决策引擎的上线，不仅增强了我们系统的分析能力，更为后续更复杂的 Agentic Workflow（如多模态评估、代码自动部署仲裁）奠定了坚实的护城河。这次跨端 AI 协作，也让我们看到了“AI 结对编程”与“机器自治 Peer Review”的巨大潜力！