热门资讯

DeepSeek推出FlashMLA项目可以显著降低内存占用和计算开销

互联网来源：蓝点网 2025-03-22 04:45:45

开源人工智能技术开发商 DeepSeek 上周已经预告将在本周陆续推出 5 个已经在生产环境中使用的技术，目前首个项目 FlashMLA 已经在 GitHub 上公布。

FlashMLA 是一种针对 NVIDIA Grace Hopper 架构 GPU 设计的高效多层注意力 (Multi-Layer Attention，MLA) 解码内核，该技术不仅可以优化变长序列的处理性能，还可以将低内存占用和计算开销。

该技术的关键特点包括：

BF16 支持：FlashMLA 采用 BF16 精度格式，兼顾 FP32 的动态范围和 FP16 的计算效率，这种设计可以显著降低内存占用和计算开销，特别适合深度学习模型的推理阶段。

分页 KV 缓存技术：Paged KV Cache 通过块大小为 64 的分页键缓存系统，FlashMLA 优化了 Transformer 模型中键值对的存储和访问，减少内存碎片和延迟等，这项技术主要是和处理变长序列，确保在不同输入长度下都能保持高效性能。

卓越性能：在 NVIDIA H800 GPU 上，FlashMLA 实现了 3000GB / 秒的内存带宽利用率 (内存限制场景) 和 580TFLOPS 的计算能力 (计算限制场景)，数据表明 FlashMLA 可以充分利用 Hopper 架构的 HBM 高带宽内存和并行计算能力。

FlashMLA 优化变长序列带来的优势：

变长序列是自然语言处理、语音识别、时间序列分析等领域面临的常见技术挑战，传统模型在处理不固定长度的输入时往往效率会比较低，FlashMLA 通过针对性优化可以提高大型模型在变长序列场景下的推理速度，因此适合用于需要实时响应和高吞吐量的应用。

也就是说借助这项优势未来其他模型也可以优化响应速度，尤其是实时语音模式这种对响应速度有要求的场景，AI 可以更快的回答而不是让用户长时间等待。

目前 FlashMLA 已经在 GitHub 上完全开源，开发者只需要使用简单的 Python 命令即可快速部署，DeepSeek 也提供了测试脚本用来验证性能：https://github.com/deepseek-ai/FlashMLA

该项目的开源特性还借鉴了 FlashAttention 2&3 以及 CUTLASS 项目的模块化设计，有兴趣的开发者也可以研究上游项目的具体细节。

延伸阅读

因客观原因目前字节AI编程工具TRAE和腾讯CodeBuddy国际版均已删除Claude模型

在编程开发领域目前 Claude 系列模型备受开发者欢迎，不过日前字节跳动和腾讯旗下的 AI 编程开发工具均已删除 Claude 系列模型，至于原因则可能与 Anthropic 禁止中国企业使用该公司
贵阳“挖眼虐猫”事件系AI编造

近日，“贵州文昌阁多只小猫被挖眼砍断四肢”等话题登上微博热搜，相关内容为：有网友发布视频称，在贵州贵阳文昌阁附近发生多起虐待或虐杀小猫事件，其中包括一只常被游客打卡拍照的网红猫。该话题发布后，迅速引起
谷歌在印尼市场推出Google AI Plus订阅每月仅2.28美元还附带200GB存储空间

谷歌日前宣布在印度尼西亚推出订阅价格非常便宜的 Google AI Plus 套餐，该套餐旨在帮助更多用户积极利用人工智能服务创造并提升生产力，谷歌计划后续将该订阅方案推广到更多新兴市场。Google

关注公众号：拾黑（shiheibook）了解更多

友情链接：

*文章为作者独立观点，不代表文娱排行榜立场

本文由 pancy发表，转载此文章须经作者同意，并请附上出处( 文娱排行榜 )及本页链接。

原文链接 https ://www.yaorank.com/news/net/32221.html

AI DeepSeek FlashMLA 人工智能开源开源周蓝点网