短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型:DeepSeek-V3和DeepSeek-R1。这两款模型成本低廉,性能却与OpenAI相当,引发了硅谷的震动,甚至让meta内部陷入恐慌,工程师们开始连夜尝试复制DeepSeek的成果。
Scale AI创始人Alexander Wang在采访中表示,DeepSeek在他们的测试中表现最佳,与美国最好的模型相当。他之前曾评价说,DeepSeek-V3是中国科技界带给美国的一个苦涩教训,指出当美国休息时,中国科技界以更低的成本、更快的速度和更强的实力迎头赶上。
中国AI的新进展也引起了国外媒体的关注,他们认为这些新进展为硅谷敲响了警钟。特别是在5000亿美元的“星际之门”计划公布之际,DeepSeek以极低的价格建立了一个突破性的AI模型,且没有使用尖端芯片,这让人们质疑巨额资本投入是否真的是最有效的方法。
一名meta员工在匿名平台teamblind上发帖称,由于DeepSeek-V3的表现,meta已经进入恐慌模式。DeepSeek-V3在基准测试中超越了Llama 4,而其训练预算仅为550万美元。meta工程师们正争分夺秒地分析DeepSeek的技术,试图复制其成果。管理层则因GenAI研发部门的巨额投入感到焦虑,因为一个高管的薪资就超过了整个DeepSeek V3的训练成本。