张子洋 · 组会汇报 · 2026.05
Text MAS:多个 Agent 通过自然语言文本进行多轮讨论协作
→ 精度高,但推理开销大(多轮文本生成)
Latent MAS:Agent 间通过 hidden states 直接交换信息
→ 效率高,但精度能否匹配?
| 维度 | 覆盖内容 |
|---|---|
| 模型 | Qwen2.5-7B-Instruct, Qwen3-8B, Qwen3-14B |
| 数据集 | GSM8K (数学), ARC-Easy/Challenge (常识), AIME2024 (竞赛) |
| 方法 | Baseline, Text MAS, Latent MAS (ls=4), Latent-First |
| 样本量 | 100~2376 samples (按数据集) |
latent_steps=4 · seed=42 · 本地 GPU 推理 · offline generation
| 模型 | Baseline | Latent MAS | Text MAS |
|---|---|---|---|
| Qwen2.5-7B | 0.89 / 7.3s | 0.78 / 6.1s | 0.84 / 29.4s |
| Qwen3-8B (ctx4096) | 0.96 / 36.1s | 0.96 / 43.3s | 0.95 / 85.9s |
| Qwen3-14B | 0.71 / 28.8s | 0.82 / 158.2s | 0.92 / 220.6s |
| Dataset | Baseline | Latent MAS | Text MAS |
|---|---|---|---|
| ARC-Easy | 0.985 / 27.1s | 0.995 / 20.4s (快25%) | 0.983 / 92.2s |
| ARC-Challenge | 0.945 / 36.7s | 0.950 / 23.6s (快36%) | 0.955 / 97.1s |
Qwen2.5-7B · GSM8K · 100 samples · 流程: Question → LatentMAS → Verifier → 保留 or 回退TextMAS
| Strategy | Accuracy | Time/sample | 备注 |
|---|---|---|---|
| Latent MAS | 0.78 | 6.14s | — |
| Parse-only fallback | 0.78 | 5.75s | 无提升 |
| Self-check fallback | 0.86 | 60.00s | fallback_rate=95% |
欢迎讨论 🙌