Zhentao Fan
多伦多大学本硕,两年修满学分,本科生讲师

Open-Sourced Innovation

已落产品工作

【创新|独作】Mamba Context Parallel [2025/05|华为加研院TechSpark年度创新银奖]
Mamba2 上下文并行算法: 预训练加速10%~20%,无限上下文训练,可与现有TPSP方法叠加。[代码]

展开后加载 PDF 预览...

【优化|合著】昇腾 MLA PageAttention Int8算子 [2025/04]
MLA推理算子:C8算子加速160%,16比特算子加速20%。[代码]

展开后加载 PDF 预览...

展开后加载 PDF 预览...

【创新|独作】ZeCO-HDP [2025/12]
RL场景,长短序列混合CP并行:训练后端加速10~20%,峰值Tokens负载更低。[代码]

展开后加载 PDF 预览...

未落产品工作

【创新|独作】StereoDiT [2025/09]
任意视频推理出3D双目视频:效果不错,稳定性低,难产品化。

展开后加载 PDF 预览...

【创新|合著】TaoCache [2025/08]
视频生成推理加速:物体结构保持性好,加速上限低。

展开后加载 PDF 预览...

【创新|独作】SwapDual [2025/02]
VPP反向阶段前置Stage1的权重更新并Swap至互补rank的卡上,提前下一轮前向减少空泡:对现有产品框架入侵大。

展开后加载 PDF 预览...

【优化|独作】Matmul Optimization [2025/02]
优化Swizzle策略提升910B卡型上大矩阵L2 Cache命中:后续转交其他部门。

展开后加载 PDF 预览...