證券時報網(wǎng)
吳志
2025-02-12 12:29
證券時報e公司訊,隨著模型規(guī)模的擴(kuò)大,推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸。近期,字節(jié)跳動豆包大模型團(tuán)隊提出了全新的稀疏模型架構(gòu)UltraMem,該架構(gòu)有效解決了MoE推理時高額的訪存問題,推理速度較MoE架構(gòu)提升2—6倍,推理成本最高可降低83%。該研究還揭示了新架構(gòu)的Scaling Law,證明其不僅具備優(yōu)異的Scaling特性,更在性能上超越了MoE。實驗結(jié)果表明,訓(xùn)練規(guī)模達(dá)2000萬value的UltraMem模型,在同等計算資源下,可同時實現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模value或expert開辟了新路徑。