<li id="ewciq"></li>

豆包提出全新稀疏架構(gòu) 推理成本較MoE最高可降83%

來源：證券時報網(wǎng)2025-02-12 12:37

證券時報e公司訊，隨著模型規(guī)模的擴(kuò)大，推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸。近期，字節(jié)跳動豆包大模型團(tuán)隊提出了全新的稀疏模型架構(gòu)UltraMem，該架構(gòu)有效解決了MoE推理時高額的訪存問題，推理速度較MoE架構(gòu)提升2—6倍，推理成本最高可降低83%。該研究還揭示了新架構(gòu)的Scaling Law，證明其不僅具備優(yōu)異的Scaling特性，更在性能上超越了MoE。實驗結(jié)果表明，訓(xùn)練規(guī)模達(dá)2000萬value的UltraMem模型，在同等計算資源下，可同時實現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能，為構(gòu)建數(shù)十億規(guī)模value或expert開辟了新路徑。

責(zé)任編輯：任麗珺

聲明：證券時報力求信息真實、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實質(zhì)性投資建議，據(jù)此操作風(fēng)險自擔(dān)

下載“證券時報”官方APP，或關(guān)注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個人看法，并不表明證券時報立場