DeepSeek开源具有671B个参数的新型 AI 模型
人工智能开发商DeepSeek今天开源了具有6710亿个参数的全新大型语言模型DeepSeek-V3。
LLM 可以生成文本、编写软件代码并执行相关任务。DeepSeek 表示,它在六项基准测试中的表现优于市场上最先进的两款开源 LLM。
DeepSeek-V3 基于所谓的混合专家 (MoE) 架构。它由多个神经网络组成,每个神经网络都针对不同的任务集进行了优化。当 DeepSeek-V3 收到提示时,一个称为路由器的组件会将请求发送到最适合回答该请求的神经网络。
MoE 架构的主要优势在于它降低了硬件成本。向 DeepSeek-V3 发送提示不会激活整个 LLM,而只会激活请求路由到的特定神经网络。每个这样的神经网络都有 340 亿个参数,这意味着它只需要相对有限的基础设施即可运行。
除了其优点之外,MoE 架构也带来了一些挑战。在训练过程中,MoE 模型的某些神经网络会比其他神经网络接收更多的训练数据,这可能会导致 LLM 的输出质量不一致。DeepSeek 表示,它已经开发出一种缓解这一挑战的新方法,并将其应用于 DeepSeek-V3。
LLM 的训练使用了 14.8 万亿个 token 的信息。一个 token 对应几个字母或数字。训练过程耗时 278.8 万个图形处理单元小时,这意味着它使用的基础设施相对较少。业界最先进的 AI 集群拥有数万个或更多的 GPU,可以在几天内完成这样的训练项目。
除了 MoE 架构外,DeepSeek-V3 还配备了多种优化功能,旨在提高其输出质量。
LLM 使用一种称为注意力的技术来识别句子中最重要的细节。DeepSeek-3 实现了多头潜在注意力,这是该技术的改进版本,允许它从文本片段中提取多次关键细节,而不是仅提取一次。这使得 LLM 不太可能忽略重要信息。
DeepSeek-V 还具有所谓的多标记预测功能。语言模型通常一次生成一个标记。相比之下,DeepSeek-V3 一次生成多个标记,从而加快了推理速度。
DeepSeek 通过将其算法与其他三款开源 LLM(上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B)进行比较来测试其算法。DeepSeek-V3 在评估中使用的所有九项编码和数学基准测试中都取得了更高的分数。它在一系列文本处理任务中也表现得更好。
DeepSeek-V3 的代码可以在Hugging Face上找到。
-
DeepSeek甩出了一张“王炸”
12月26日消息,国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型。主要的技术迭代是671B的MoE,37B的激活参数
-
DeepSeek V3刷屏,550万元2000张卡做出的开源模型,和OpenAI几亿烧出来的一样好
像是迷雾中走出的一头怪兽,DeepSeek V3 在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对
-
幻方量化旗下模型DeepSeek上线V3版本
幻方量化旗下探索AGI(通用人工智能)的组织“深度求索(DeepSeek)”宣布,模型DeepSeek-V3首个版本上线并同步开源。当前版本的DeepSeek-V3暂不支持多模态输入输出。此外,模型A
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
随时掌握互联网精彩
- 银昕发布星辉Y360 AIO水冷散热器:专利Q120汉堡扇
- 点读机女孩高君雨账号被禁言:手术视频时间造假
- 胖东来未按标准试吃员工被开除 网友集体声援:处罚过重 没到开除的地步
- DzSoft PHP Editor 4.2.7.8最新版本2022下载地址
- 韩元汇率对人民币2023年10月7日
- 雷电影音 1.0.0.39最新版本2022下载地址
- 加币兑换人民币汇率2023年5月13日
- 破碎的心灵:假面舞会 1.0最新版本2022下载地址
- 大嘴韩语 3.0.0.0最新版本2022下载地址
- 悟空72变ios版 V1.0.5最新版本2022下载地址
- 房易采 v1.1.2最新版本2022下载地址
- 爱作业app v3.9最新版本2022下载地址