3月24日晚間,DeepSeek發(fā)布了V3模型的最新更新版本——V3-0324模型。
在保持原有技術(shù)框架的基礎(chǔ)上,V3-0324模型針對性能、用戶體驗(yàn)和實(shí)用性進(jìn)行了優(yōu)化。新版模型延續(xù)了V3系列的核心架構(gòu),總體積為6850億參數(shù),較此前版本的6710億有小幅增長。目前,最新模型已在官方網(wǎng)頁、App小程序等入口開放,開源版本已上架開源網(wǎng)站。
整體來看,新版模型是一次小型的迭代升級,其主要的特點(diǎn)包括:
一是在模型性能方面,雖然DeepSeek并未給出新版模型的基準(zhǔn)測試結(jié)果,但用戶測試表明,其在生成復(fù)雜代碼、數(shù)學(xué)問題求解、前端設(shè)計(jì)任務(wù)等方面表現(xiàn)更為出色。其中,模型前端代碼能力的提升是用戶感知最明顯的部分,有海外AI博主稱,DeepSeek終于能在代碼領(lǐng)域和Anthropic的Claude3.5/3.7Sonnet相媲美,還有專業(yè)用戶在體驗(yàn)后認(rèn)為,V3-0324的提升幅度大約相當(dāng)于Sonnet3.5到Sonnet3.6的提升。
例如,有海外博主提到,其讓新的DeepSeekV3-0324創(chuàng)建一個市場網(wǎng)站,僅用一個提示,它就可以根據(jù)想法自動決定名稱、主題、顏色和內(nèi)容,生成十分成熟和效果驚艷的網(wǎng)站,這“擊敗編碼方面的所有其他模型”,也讓非技術(shù)人員不用懂編碼就能夠創(chuàng)造出很棒的東西。
二是在用戶交互方面,新版模型默認(rèn)關(guān)閉“深度思考”模式,使模型響應(yīng)速度更快,適合快速迭代的任務(wù)。這一調(diào)整兼顧了實(shí)時(shí)性需求與復(fù)雜任務(wù)處理的平衡,現(xiàn)有API用戶無需調(diào)整代碼即可無縫兼容。
除此以外,據(jù)用戶反饋,新版模型在多輪對話中體現(xiàn)了自然語言表達(dá)能力的提升,不僅上下文理解能力增強(qiáng),其回復(fù)的語氣與用詞也更接近人類表達(dá)習(xí)慣,會減少一些機(jī)械式的回答,使用更加口語化的表述。
三是采用了更寬松的開源協(xié)議。DeepSeek延續(xù)了其一貫的開源傳統(tǒng),而且讓開源社區(qū)更為興奮的是,新版模型的開源許可與R1一樣,也更新變成了MIT開源許可,比初代V3有更寬松的開源使用條件。MIT開源許可協(xié)議以商業(yè)友好著稱,意味著研究人員和開發(fā)者可以自由下載、修改和部署模型,甚至可與專有軟件集成。
V3-0324的表現(xiàn)有頗多可圈可點(diǎn)之處,盡管此次升級并非傳聞中的V4或R2版本,但依然憑借6850億參數(shù)的開源模型和更友好的開源協(xié)議,迅速引發(fā)全球開發(fā)者的關(guān)注。
與此同時(shí),外界對于DeepSeek的新模型也有著較高的期待。有分析人士指出,V3-0324的發(fā)布時(shí)機(jī)和特性或許表明,它將成為DeepSeek-R2的基礎(chǔ)模型。此前就有市場消息稱DeepSeek-R2將提前發(fā)布,DeepSeek官方企業(yè)咨詢賬號則在用戶群中辟謠稱R2發(fā)布為假消息。目前,DeepSeek官方尚未正式公布R2的具體日期及技術(shù)細(xì)節(jié)等,市場預(yù)期R2將于5月發(fā)布。
校對:劉星瑩
(點(diǎn)擊圖片進(jìn)入報(bào)名頁面)