DeepSeek-V3 正式发布
DeepSeek-V3 是 DeepSeek 公司最新发布的自研 MoE 模型,拥有 671B 参数,激活 37B,并在 14.8T token 上进行了预训练。该模型在多项评测中表现优异,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上与 GPT-4o 和 Claude-3.5-Sonnet 等顶尖闭源模型不相上下。DeepSeek-V3 在百科知识、长文本、代码、数学和中文能力等方面均有显著提升。此外,通过算法和工程创新,生成速度从 20 TPS 提升至 60 TPS,为用户带来更流畅的使用体验。API 服务价格也进行了调整,并提供了长达 45 天的优惠价格体验期。DeepSeek-V3 同步开源了原生 FP8 权重,支持多种推理框架,方便社区适配和拓展应用场景。DeepSeek 公司表示,将继续在 DeepSeek-V3 基座模型上打造更多功能,并持续与社区分享最新探索成果。