隐式多智能体协作研究进展

Latent Multi-Agent Collaboration: Progress Report

张子洋 · 组会汇报 · 2026.05

研究概览

背景与研究目标

Text MAS：多个 Agent 通过自然语言文本进行多轮讨论协作
→ 精度高，但推理开销大（多轮文本生成）

Latent MAS：Agent 间通过 hidden states 直接交换信息
→ 效率高，但精度能否匹配？

本阶段目标：复现 Latent MAS 框架，评估不同模型/任务上的表现；
探索 Latent-First 策略 —— 默认隐式协作，仅在不可信时回退到显式协作。

实验进度

实验设置与覆盖范围

维度	覆盖内容
模型	Qwen2.5-7B-Instruct, Qwen3-8B, Qwen3-14B
数据集	GSM8K (数学), ARC-Easy/Challenge (常识), AIME2024 (竞赛)
方法	Baseline, Text MAS, Latent MAS (ls=4), Latent-First
样本量	100~2376 samples (按数据集)

latent_steps=4 · seed=42 · 本地 GPU 推理 · offline generation

结果观察

GSM8K：模型代际差异

模型	Baseline	Latent MAS	Text MAS
Qwen2.5-7B	0.89 / 7.3s	0.78 / 6.1s	0.84 / 29.4s
Qwen3-8B (ctx4096)	0.96 / 36.1s	0.96 / 43.3s	0.95 / 85.9s
Qwen3-14B	0.71 / 28.8s	0.82 / 158.2s	0.92 / 220.6s

观察：Qwen2.5 上 baseline 最强；Qwen3-8B 三者持平但 Latent 效率最优；Qwen3-14B 上 MAS 显著有效。
模型对协作机制的响应与其架构/训练方式强相关。

结果观察

ARC：Latent MAS 又快又准

Dataset	Baseline	Latent MAS	Text MAS
ARC-Easy	0.985 / 27.1s	0.995 / 20.4s (快25%)	0.983 / 92.2s
ARC-Challenge	0.945 / 36.7s	0.950 / 23.6s (快36%)	0.955 / 97.1s

为什么 Latent 比 Baseline 更快？ 分析推理记录：
Baseline 单 agent 平均输出 3494 chars 思考文本；Latent MAS 中间 agent 0 文本输出（纯 latent），仅 Aggregator 输出 2458 chars。
→ Latent 协作用隐式表征替代了显式思考链，大幅压缩推理文本量。

结果观察

Latent-First 原型验证

Qwen2.5-7B · GSM8K · 100 samples · 流程: Question → LatentMAS → Verifier → 保留 or 回退TextMAS

Strategy	Accuracy	Time/sample	备注
Latent MAS	0.78	6.14s	—
Parse-only fallback	0.78	5.75s	无提升
Self-check fallback	0.86	60.00s	fallback_rate=95%

结论：方向有效（0.78→0.86），但 verifier 过于保守（95%回退），效率丢失。
瓶颈不在"是否回退"，而在"何时回退"。

未来工作

下一步方向

优化 Fallback Trigger
设计更精准、低成本的可信度判断机制，降低 95% 的 fallback rate
Latent-Text-Mix：混合推理通信
核心思路：通信时 结论/结果 → 文本输出，推理过程 → Latent 传递
下游节点可灵活选择是否触发 MergeLatent 接入上游的思考内容
本质上将原 LatentMAS 的"多角色 Latent 推理 + 汇总角色总结" 压缩为
单节点"Latent 内部思考 + 文本输出结果"—— 用 Latent 替代 CoT
扩展验证
更多数据集（MATH, MMLU 等）、更多模型规模的系统性评估

Thanks & Q&A

欢迎讨论 🙌