數(shù)據(jù)寶
郭潔
2025-03-22 08:06
3月21日深夜,騰訊混元宣布,正式推出自研深度思考模型混元T1正式版。
在體現(xiàn)推理模型基礎(chǔ)能力的常見(jiàn)benchmark上,如大語(yǔ)言模型評(píng)估增強(qiáng)數(shù)據(jù)集MMLU-PRO中,混元T1取得87.2分,僅次于o1。在CEval、AIME、Zebra Logic等中英文知識(shí)及競(jìng)賽級(jí)數(shù)學(xué)、邏輯推理的公開(kāi)基準(zhǔn)測(cè)試中,混元T1的成績(jī)也達(dá)到業(yè)界領(lǐng)先推理模型的水平。
此前,騰訊宣布,混元大模型首次登上 Chatbot Arena 榜單,躋身全球 Top 15。用戶(hù)在該平臺(tái)上以匿名方式與多個(gè)模型互動(dòng),投票決定何種模型更佳,從而根據(jù)分?jǐn)?shù)生成排行榜。這種測(cè)評(píng)也被看成是大模型直接 PK 的競(jìng)技場(chǎng),簡(jiǎn)單直接。
去年 9 月 5 日,騰訊發(fā)布了新一代大模型混元 Turbo,采用 MoE 架構(gòu),比上一代產(chǎn)品推理效率提升 100%,推理成本降低 50%。
在本月 1 日發(fā)布的騰訊元寶電腦版 App 中則是內(nèi)置了混元和 DeepSeek 兩種模型,支持雙模切換。
部分內(nèi)容綜合自:騰訊等