热门资讯

DeepSeek开源具有671B个参数的新型 AI 模型

互联网来源：SiliconANGLE 2024-12-29 06:15:32

人工智能开发商DeepSeek今天开源了具有6710亿个参数的全新大型语言模型DeepSeek-V3。

LLM 可以生成文本、编写软件代码并执行相关任务。DeepSeek 表示，它在六项基准测试中的表现优于市场上最先进的两款开源 LLM。

DeepSeek-V3 基于所谓的混合专家 (MoE) 架构。它由多个神经网络组成，每个神经网络都针对不同的任务集进行了优化。当 DeepSeek-V3 收到提示时，一个称为路由器的组件会将请求发送到最适合回答该请求的神经网络。

MoE 架构的主要优势在于它降低了硬件成本。向 DeepSeek-V3 发送提示不会激活整个 LLM，而只会激活请求路由到的特定神经网络。每个这样的神经网络都有 340 亿个参数，这意味着它只需要相对有限的基础设施即可运行。

除了其优点之外，MoE 架构也带来了一些挑战。在训练过程中，MoE 模型的某些神经网络会比其他神经网络接收更多的训练数据，这可能会导致 LLM 的输出质量不一致。DeepSeek 表示，它已经开发出一种缓解这一挑战的新方法，并将其应用于 DeepSeek-V3。

LLM 的训练使用了 14.8 万亿个 token 的信息。一个 token 对应几个字母或数字。训练过程耗时 278.8 万个图形处理单元小时，这意味着它使用的基础设施相对较少。业界最先进的 AI 集群拥有数万个或更多的 GPU，可以在几天内完成这样的训练项目。

除了 MoE 架构外，DeepSeek-V3 还配备了多种优化功能，旨在提高其输出质量。

LLM 使用一种称为注意力的技术来识别句子中最重要的细节。DeepSeek-3 实现了多头潜在注意力，这是该技术的改进版本，允许它从文本片段中提取多次关键细节，而不是仅提取一次。这使得 LLM 不太可能忽略重要信息。

DeepSeek-V 还具有所谓的多标记预测功能。语言模型通常一次生成一个标记。相比之下，DeepSeek-V3 一次生成多个标记，从而加快了推理速度。

DeepSeek 通过将其算法与其他三款开源 LLM（上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B）进行比较来测试其算法。DeepSeek-V3 在评估中使用的所有九项编码和数学基准测试中都取得了更高的分数。它在一系列文本处理任务中也表现得更好。

DeepSeek-V3 的代码可以在Hugging Face上找到。

延伸阅读

刘慈欣谈DeepSeek：完全有可能替代科幻小说作家

日前，2025中国科幻大会在北京举办，主题为“科学梦想创造未来”。在大会论坛上，科幻作家刘慈欣谈到了DeepSeek对科幻文学的驱动和发展。据央视财经报道，对于DeepSeek未来是否有可能替代科幻
DeepSeek推出FlashMLA项目可以显著降低内存占用和计算开销

开源人工智能技术开发商 DeepSeek 上周已经预告将在本周陆续推出 5 个已经在生产环境中使用的技术，目前首个项目 FlashMLA 已经在 GitHub 上公布。FlashMLA 是一种针对 N
消息称美国已禁止在政府设备上使用DeepSeek：我国回应

据美国媒体报道称，美国商务部各部门最近几周通知工作人员，中国人工智能（AI）模型深度求索（DeepSeek）已被禁止在其政府设备上使用。针对上述情况，我国方面回应称，“我们一贯反对泛化“国家安全”概念

关注公众号：拾黑（shiheibook）了解更多

友情链接：

*文章为作者独立观点，不代表极速下载站立场

本文由苏小涵发表，转载此文章须经作者同意，并请附上出处( 极速下载站 )及本页链接。

原文链接 https ://www.yaorank.com/news/net/31359.html

DeepSeek SiliconANGLE LLM DeepSeek-V3