不到600万美元，性能匹敌GPT4.0！DeepSeek-V3发布震惊业界

　　近日，幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本，并同步开源。

　　DeepSeek-V3为自研MoE模型，671B参数，激活37B，在14.8T token上进行了预训练。

　　DeepSeek引用评测报告指出，DeepSeek-V3多项评测成绩超越了阿里旗下Qwen2.5-72B和Meta旗下Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

　　令业界震惊的是，DeepSeek-V3训练仅花费了557.6万美元，在2048xH800集群上运行55天完成，还很坦诚地公布了技术细节。

　　相比之下，GPT-4o这样的模型训练成本约为1亿美元。

　　这一成果已经引起海外注意。其中，OpenAI创始成员Karpathy点评称，DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强，训练消耗的算力却仅为后者的1/11。

　　这意味着算力成本的大幅下降，也意味着大模型领域在经历了“百模大战”后，可能会迎来新一轮的大模型产品竞争。