欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

Xiaomi MiMO 大模型负责人罗福莉:MiMo-V2-Flash 是 AGI 路线图中的第二步

作者:心靈之曲 | 点击: | 来源:心靈之曲
1712
2025
今日上午,在小米2025人车家全生态合作伙伴大会上,XiaomiMiMO大模型团队负责人罗福莉完成加盟小米后的首次公开亮相,并正式推出并开源全新MoE架构大模型——MiMo-V2-Flash。罗福莉随后在社交平台同步分享了关于MiMo-V2-Flash的核心技术细节:MiMo-V2-Flash已全面开放。这仅是我们通向通用人工智能(AGI)征程中的第二站,但其中若干关键工程决策,值得在此简要记录。架构设计:我们最终选定HybridSWA(混合滑动窗口注意力)方案。该方案兼具简洁性与高效性,在内部...

今日上午,在小米2025人车家全生态合作伙伴大会上,xiaomi mimo大模型团队负责人罗福莉完成加盟小米后的首次公开亮相,并正式推出并开源全新moe架构大模型——mimo-v2-flash。

罗福莉随后在社交平台同步分享了关于MiMo-V2-Flash的核心技术细节:

MiMo-V2-Flash 已全面开放。这仅是我们通向通用人工智能(AGI)征程中的第二站,但其中若干关键工程决策,值得在此简要记录。

架构设计:

我们最终选定 Hybrid SWA(混合滑动窗口注意力)方案。该方案兼具简洁性与高效性,在内部长文本推理基准测试中,显著超越各类线性注意力(Linear Attention)改进版本。此外,固定 KV cache 的设计极大降低了与现有系统基础设施的集成门槛。
注:窗口长度设为128是经过充分验证的“最优值”(将窗口扩大至512反而导致性能下降);sink tokens 机制不可或缺,切勿省略。

MTP(多Token预测):

这一技术在当前高效强化学习(RL)实践中长期被低估。除首层外,MTP仅需极少量微调即可实现较高的 accept length。采用3层MTP结构后,我们在编程类任务中实测 accept length 稳定超过3,推理速度提升约

2.5倍。
它有效缓解了小批量 On-Policy RL 场景下因长尾样本导致的 GPU 利用率低下问题。受限于本次发布节奏,MTP暂未嵌入完整 RL 训练流程,但其与 RL 框架天然契合。我们已将3层MTP模块完全开源,便于开发者即插即用。

基于MOPD的后训练策略:

我们引入 Thinking Machine 提出的 On-Policy Distillation(OPD)方法,用于融合多个RL训练所得模型,计算效率跃升明显——仅需传统SFT+RL联合训练流程不到1/50的算力消耗,即可复现教师模型的全部能力。
此路径已初具雏形:学生模型持续迭代进化,终将反哺成为更强大的新教师,从而构建起自我增强的正向循环。

致谢:
致敬我所带领的这支卓越团队。他们在数月之内,将一系列前沿构想从纸面推至稳定可用的工业级系统。


来源:https://www./link/f0e6cbab5a5b7ea2821b2fe1c39d624a

源码地址:点击下载

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询