李飛飛團(tuán)隊“50美元”復(fù)刻DeepSeek，一文讀透背后邏輯

來源：每日經(jīng)濟(jì)新聞作者：宋欣悅2025-02-11 09:05

當(dāng)?shù)貢r間2月6日，據(jù)外媒報道，李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費用，使用了16張英偉達(dá)H100GPU，耗時26分鐘就完成了訓(xùn)練，成功“打造”出了一個名為s1-32B的人工智能推理模型。

根據(jù)李飛飛等人的研究論文《s1：Simple test- time scaling》，該模型在數(shù)學(xué)和編碼能力測試中的表現(xiàn)，與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下，在競賽數(shù)學(xué)問題上的表現(xiàn)更是比o1-preview高出27%。

憑借低成本、高效能，s1模型成為繼“AI界價格屠夫”DeepSeek之后再次引發(fā)科技界熱議的話題。但s1推理模型的成本真的只有50美元嗎？其性能是否真有描述的那么出色？在“白菜價”的背后，李飛飛團(tuán)隊又有哪些探索？

針對成本問題，復(fù)旦大學(xué)計算機(jī)學(xué)院副教授、博士生鄭驍慶在接受《每日經(jīng)濟(jì)新聞》記者采訪時指出，“像DeepSeek或者類似的公司，在尋找有效的整合解決方案時，需要進(jìn)行大量的前期研究與消融實驗?！边@意味著前期是需要大量“燒錢”的。

疑問一：只用50美元？

據(jù)報道，李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費用，就完成了模型s1-32B的訓(xùn)練。參與該項目的斯坦福大學(xué)研究員尼克拉斯·穆寧霍夫（Niklas Muennighoff）更是表示，如今，只要約20美元就能租到所需的計算資源。

然而，關(guān)于訓(xùn)練成本，有幾點需要明確。

首先，模型s1-32B的打造并非是從零開始，而是基于現(xiàn)成的、預(yù)訓(xùn)練的模型（阿里通義千問Qwen2.5-32B-Instruct）進(jìn)行監(jiān)督微調(diào)。而微調(diào)一個模型和從零開始訓(xùn)練一個模型的成本是無法相提并論的。

其次，50美元是否包含了其他數(shù)據(jù)、設(shè)備、消融實驗等費用，還要打一個問號。正如DeepSeek-V3不到600萬美元的訓(xùn)練成本，實際上也只包括了訓(xùn)練時的GPU算力費用。

鄭驍慶向《每日經(jīng)濟(jì)新聞》記者表示，“像DeepSeek或者類似的公司，在尋找有效的整合解決方案時，需要進(jìn)行大量的前期研究與消融實驗?！倍趯嶒灳鸵馕吨?，前期是需要大量“燒錢”的。

AI數(shù)據(jù)公司Databricks研究員奧馬爾·哈塔布（Omar Khattab）評價稱，（李飛飛團(tuán)隊的）論文似乎是關(guān)于Qwen模型的某種發(fā)現(xiàn)。

谷歌DeepMind資深研究員Wenhu Chen同樣表示，“真正神奇的是Qwen模型。我們嘗試過把基座模型換成其他模型，用同樣的數(shù)據(jù)去訓(xùn)練，但最終并不能達(dá)到這么好的效果。”

也就是說，s1-32B是站在了“巨人肩膀”上，且50美元的成本也并沒有涵蓋Qwen模型的訓(xùn)練費用。

疑問二：性能這么強(qiáng)？

李飛飛團(tuán)隊發(fā)表的論文提到，根據(jù)Qwen2.5-32B-Instruct進(jìn)行微調(diào)的s1-32B模型，在數(shù)學(xué)和編碼能力測試中的表現(xiàn)，與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下，在競賽數(shù)學(xué)問題上的表現(xiàn)更是比o1-preview高出27%。

此外，研究結(jié)果顯示，s1-32B是樣本效率最高的開放數(shù)據(jù)推理模型，表現(xiàn)明顯優(yōu)于其基座模型（Qwen2.5-32B-Instruct）以及OpenAI的推理模型o1- preview。

不過，事實上，s1-32B只能在特定的測試集上超過o1-preview，且并沒有超過“滿血版”o1和DeepSeek-R1。

研究結(jié)果顯示，在AIME2024和MATH 500兩個測試集中，s1-32B超過了o1-preview，但無論在哪個測試集，s1-32B都沒有超過“滿血版”o1和正式版DeepSeek-R1。

重點不在“白菜價”

事實上，李飛飛團(tuán)隊論文的核心也并不在于如何“卷”模型價格，而是研究如何以最簡單的方式實現(xiàn)“測試時拓展”（test- time scaling）。

測試時擴(kuò)展是一種在模型推理階段通過多步推理來提高模型性能的技術(shù)。具體來說，研究團(tuán)隊可控制模型“思考”多長時間或進(jìn)行多少步操作。如果模型過早結(jié)束推理，系統(tǒng)會鼓勵模型延長思考時間，確保其充分考慮問題。這也就意味著，模型在推理時會進(jìn)行多次推理迭代，并逐步優(yōu)化推理結(jié)果，最終生成高質(zhì)量的答案。

例如，當(dāng)被問到“raspberry”中有幾個“r”時，模型首先進(jìn)行了初步推理，并得出了錯誤的初步結(jié)果：有2個r。但推理過程并沒有就此結(jié)束，模型又重新進(jìn)行推理，優(yōu)化了上次回答的結(jié)果，輸出了最終的答案：3個r。

OpenAI的o1系列模型就是一個典型的例子，展現(xiàn)了測試時拓展在模型性能提升上的潛力。

微軟CEO薩提亞·納德拉（Satya Nadella）曾表示，人們正在見證一種新的規(guī)模法則（Scaling Law）的出現(xiàn)——模型效率與測試時間或推理時間計算有關(guān)。

高質(zhì)量數(shù)據(jù)集降低成本

此外，李飛飛研究團(tuán)隊還從16個來源收集了59029道高質(zhì)量題目，包括數(shù)學(xué)競賽問題、博士級別的科學(xué)問題、奧林匹克競賽問題等，并通過三個標(biāo)準(zhǔn)進(jìn)行驗證：難度、多樣性和質(zhì)量。

通過過濾，研究團(tuán)隊最終得到了包含1000個樣本的s1K數(shù)據(jù)集，數(shù)據(jù)集覆蓋幾何、數(shù)論、量子力學(xué)等50個領(lǐng)域，并且每個問題都配有從 Google Gemini 2.0Flash Thinking Experimental作為“教師模型”蒸餾而來的答案和推理軌跡。

這個數(shù)據(jù)集的構(gòu)建基于三個關(guān)鍵標(biāo)準(zhǔn)：難度、多樣性和質(zhì)量。高質(zhì)量的數(shù)據(jù)集，極大降低了s1-32B模型的訓(xùn)練成本。

復(fù)旦大學(xué)計算機(jī)學(xué)院副教授、博士生鄭驍慶在接受記者采訪時表示，大規(guī)模的數(shù)據(jù)可能不會成為下一步大家爭奪的戰(zhàn)場，其成本和產(chǎn)出之間的比例在慢慢壓縮，而高質(zhì)量數(shù)據(jù)的微調(diào)和強(qiáng)化學(xué)習(xí)未來將會有更多的投入。

責(zé)任編輯：陳勇洲

計算機(jī)

美元

聲明：證券時報力求信息真實、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實質(zhì)性投資建議，據(jù)此操作風(fēng)險自擔(dān)

下載“證券時報”官方APP，或關(guān)注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機(jī)會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個人看法，并不表明證券時報立場