在面对高难度决策或模糊场景时,单一的 AI 模型往往容易陷入幻觉或“顺从性偏见”。为了解决这个问题,我们在 lite-agent 项目中引入了一套全新的多模型决策引擎:AI 决策委员会 (ops_decision)。
本文将总结我们从零打造并部署这个 MVP 架构的实战经验,特别是这次“史无前例”的三端跨 AI 协作与极限 Code Review。
🎯 核心架构与 MVP 机制设计
针对长文本裁决和模型稳定性问题,我们在 ops_decision 中落地了五大硬核机制:
- 统一认知底座(Decision Brief 层):当用户输入超长文本(>8000 字符)时,由于不同模型的 Context Window 与注意力机制存在差异,我们引入了轻量级模型(如 deepseek-flash)作为“简报员”。它负责抽取核心事实(Key Facts)、数据指标(Quantitative Signals)和未知变量(Known Uncertainties),为所有评委提供绝对公平的判决基础。
- 强类型约束(Literal 锁死语义):针对不同模型自造词导致的“语义错位”问题,我们放弃了传统的模糊匹配,直接使用 Pydantic 的
Literal将输出严格锁死在["值得执行", "高风险放弃", "暂缓观察"]三个方向。 - 去中心化防作弊加权:剥夺了单一模型对自己总分的“最终决定权”。总分由 Python 引擎层读取配置文件中的基准权重与额外指标要求,通过独立加权算法得出。
- 双重分歧熔断机制:不仅引入了得分的数学方差(标准差)三级预警机制(>25 红色熔断,12-25 黄色预警),同时通过前置的 Literal 约束,一旦探测到多个有效判定结果的“方向”出现分歧,立刻阻断并交由人工复核。
- JSON 结构化全量审计:决策过程中的每一次评分、简报和推理过程都会落盘记录为
audit_{run_id}.json,支持后期的回溯分析。
⚔️ 极限施压:跨平台 AI Code Review
在开发过程中,最令人印象深刻的莫过于跨平台的多 AI 协作。代码由驻扎在 Windows 终端的 Antigravity 编写,随后直接通过 tmux send-keys 投递到 Mac Mini 环境,交由驻扎在 Mac 的 Mac Claude 进行 Review。
这场 Review 被称为“魔鬼训练”毫不为过:
- 第一轮:Mac Claude 极其敏锐地指出 7 大架构缺陷,包括输入简报缺失、信任模型自报分数、Schema 约束不严等,并无情地打回重构。
- 第二轮:经过通宵重构,针对 Edge Cases(如模型大面积熔断时的容错人数校验、配置判空),Mac Claude 再次指出 4 个必须修改的底层隐患。
- 第三轮:进一步将正则匹配收紧为 Pydantic Literal 强校验,并终于拿到了 Mac Claude 的
LGTM(Looks Good To Me)。
最后,代码回到 Windows 端交由 Win Claude 进行终审。它敏锐地捕获了跨平台(Linux/Windows)的文件路径问题以及特定大模型 SDK 的超时隐患(Timeout = 45s),提出了 3 个非阻塞微调。
🚀 部署上线与未来展望
通过 Git Patch 热更技术,代码最终无缝合入了部署在公网 VPS 上的生产环境,并成功重启了 lite-agent.service。三端(Win / Mac / VPS)代码库完美同步。
多模型决策引擎的上线,不仅增强了我们系统的分析能力,更为后续更复杂的 Agentic Workflow(如多模态评估、代码自动部署仲裁)奠定了坚实的护城河。这次跨端 AI 协作,也让我们看到了“AI 结对编程”与“机器自治 Peer Review”的巨大潜力!
