【创新|独作】Mamba Context Parallel [2025/05|华为加研院TechSpark年度创新银奖]
Mamba2 上下文并行算法: 预训练加速10%~20%,无限上下文训练,可与现有TPSP方法叠加。[代码]
▶
展开后加载 PDF 预览...
展开后加载 PDF 预览...
展开后加载 PDF 预览...
展开后加载 PDF 预览...
展开后加载 PDF 预览...
展开后加载 PDF 预览...
展开后加载 PDF 预览...
展开后加载 PDF 预览...
展开后加载 PDF 预览...