DeepSeek发布新AI模型，API价格砍半
+ 查看更多

DeepSeek发布了一款实验性大语言模型，该公司称这款模型在训练和推理方面大幅提升，运营成本更低。

Tracy Qu

■

中国AI开发商DeepSeek发布了一款实验性大语言模型，该公司称这款模型在训练和推理方面大幅提升，运营成本更低。

这家总部位于杭州的公司表示，最新模型采用了“稀疏注意力”技术，可将应用程序编程接口(API)的价格降低一半。API是让开发者和公司能够访问AI模型并按使用量付费的在线接口。

周一晚间，DeepSeek在开发者论坛Hugging Face上发文称，该模型是其下一代AI模型系列的一个进步。

随着国内外竞争加剧，中国科技公司一直在加紧升级其大语言模型。上周，阿里巴巴(Alibaba Group)推出了一版旗舰AI模型，称该版本是其迄今为止规模最大、功能最强的模型。

谷歌(Google)和OpenAI等西方科技巨头也已经在探索“稀疏注意力”技术，该技术能让AI模型更高效地处理大量信息。OpenAI在2019年曾写道，对于非常大的输入量，计算一个全注意力矩阵可能不切实际，因此，每个输出只考虑一部分输入的“稀疏模式”是一种更好的技术。

在随新模型一同发布的一篇研究论文中，DeepSeek表示，新模型使用“闪电索引器”和“细粒度词元选择机制”，以确保注意力只作用于选定的词元。

华为云(Huawei Cloud)周一晚间在一篇帖子中表示，已“第一时间”完成对新的DeepSeek-V3.2-Exp模型的适配。

在AI大语言模型排行榜Artificial Analysis上，DeepSeek的V3.1模型和阿里巴巴的通义千问3 (Qwen3)系列是排名最高的中国模型，排在OpenAI、xAI和Anthropic等公司的模型之后。

■