隐式多智能体协作研究进展

Latent Multi-Agent Collaboration: Progress Report

张子洋 · 组会汇报 · 2026.05

背景与研究目标

Text MAS:多个 Agent 通过自然语言文本进行多轮讨论协作
→ 精度高,但推理开销大(多轮文本生成)

Latent MAS:Agent 间通过 hidden states 直接交换信息
→ 效率高,但精度能否匹配?

本阶段目标:复现 Latent MAS 框架,评估不同模型/任务上的表现;
探索 Latent-First 策略 —— 默认隐式协作,仅在不可信时回退到显式协作。

实验设置与覆盖范围

维度覆盖内容
模型Qwen2.5-7B-Instruct, Qwen3-8B, Qwen3-14B
数据集GSM8K (数学), ARC-Easy/Challenge (常识), AIME2024 (竞赛)
方法Baseline, Text MAS, Latent MAS (ls=4), Latent-First
样本量100~2376 samples (按数据集)

latent_steps=4 · seed=42 · 本地 GPU 推理 · offline generation

GSM8K:模型代际差异

模型BaselineLatent MASText MAS
Qwen2.5-7B0.89 / 7.3s0.78 / 6.1s0.84 / 29.4s
Qwen3-8B (ctx4096)0.96 / 36.1s0.96 / 43.3s0.95 / 85.9s
Qwen3-14B0.71 / 28.8s0.82 / 158.2s0.92 / 220.6s
观察:Qwen2.5 上 baseline 最强;Qwen3-8B 三者持平但 Latent 效率最优;Qwen3-14B 上 MAS 显著有效。
模型对协作机制的响应与其架构/训练方式强相关。

ARC:Latent MAS 又快又准

DatasetBaselineLatent MASText MAS
ARC-Easy0.985 / 27.1s0.995 / 20.4s (快25%)0.983 / 92.2s
ARC-Challenge0.945 / 36.7s0.950 / 23.6s (快36%)0.955 / 97.1s
为什么 Latent 比 Baseline 更快? 分析推理记录:
Baseline 单 agent 平均输出 3494 chars 思考文本;Latent MAS 中间 agent 0 文本输出(纯 latent),仅 Aggregator 输出 2458 chars。
→ Latent 协作用隐式表征替代了显式思考链,大幅压缩推理文本量。

Latent-First 原型验证

Qwen2.5-7B · GSM8K · 100 samples · 流程: Question → LatentMAS → Verifier → 保留 or 回退TextMAS

StrategyAccuracyTime/sample备注
Latent MAS0.786.14s
Parse-only fallback0.785.75s无提升
Self-check fallback0.8660.00sfallback_rate=95%
结论:方向有效(0.78→0.86),但 verifier 过于保守(95%回退),效率丢失。
瓶颈不在"是否回退",而在"何时回退"。

下一步方向

  • 优化 Fallback Trigger
    设计更精准、低成本的可信度判断机制,降低 95% 的 fallback rate
  • Latent-Text-Mix:混合推理通信
    核心思路:通信时 结论/结果 → 文本输出推理过程 → Latent 传递
    下游节点可灵活选择是否触发 MergeLatent 接入上游的思考内容
    本质上将原 LatentMAS 的"多角色 Latent 推理 + 汇总角色总结" 压缩为
    单节点"Latent 内部思考 + 文本输出结果"—— 用 Latent 替代 CoT
  • 扩展验证
    更多数据集(MATH, MMLU 等)、更多模型规模的系统性评估

Thanks & Q&A

欢迎讨论 🙌