阿里巴巴發(fā)布新一代端到端多模態(tài)旗艦?zāi)Ｐ蚎wen2.5-Omni

來(lái)源：證券時(shí)報(bào)網(wǎng)作者：李志強(qiáng)2025-03-27 08:44

阿里巴巴發(fā)布了新一代端到端多模態(tài)旗艦?zāi)Ｐ蚎wen2.5-Omni，號(hào)稱(chēng)具備全方位多模態(tài)感知能力，看聽(tīng)說(shuō)寫(xiě)樣樣精通。

采用全新的Thinker-Talker雙核架構(gòu)，Thinker模塊負(fù)責(zé)處理多模態(tài)輸入并生成語(yǔ)義表征和文本內(nèi)容，Talker模塊則負(fù)責(zé)將這些信息轉(zhuǎn)化為流暢的語(yǔ)音輸出。這種架構(gòu)實(shí)現(xiàn)了端到端的統(tǒng)一，支持實(shí)時(shí)音視頻交互和流暢的語(yǔ)音生成。

能夠無(wú)縫處理文本、圖像、音頻和視頻等多種輸入形式，并同時(shí)生成文本和語(yǔ)音輸出。支持分塊輸入和即時(shí)輸出，實(shí)現(xiàn)真正的實(shí)時(shí)交互。

已在Hugging Face、ModelScope、DashScope和GitHub等平臺(tái)開(kāi)源，方便開(kāi)發(fā)者體驗(yàn)和使用。

相比現(xiàn)有方案，語(yǔ)音生成的自然度和穩(wěn)定性更高。在音頻能力上優(yōu)于同等規(guī)模的Qwen2-Audio，與Qwen2.5-VL-7B保持同等水平。在語(yǔ)音指令理解方面表現(xiàn)出色，效果可媲美文本輸入。

校對(duì)：蘇煥文

責(zé)任編輯：孫孝熙

阿里巴巴

Qwen2.5-Omni

多模態(tài)模型

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場(chǎng)

暫無(wú)評(píng)論

為你推薦

合肥警方通報(bào)：劉某某、秦某某，刑拘！

券商中國(guó) 2025-03-30 10:34
劍指投行亂象！證監(jiān)會(huì)一口氣處罰6家券商、8位高管

國(guó)際金融報(bào) 朱燈花 2025-03-30 13:16
道通科技2024年?duì)I收凈利均創(chuàng)歷史新高 AI賦能打造新質(zhì)生產(chǎn)力

證券時(shí)報(bào)網(wǎng) 康殷 2025-03-30 15:31
美軍發(fā)動(dòng)多次空襲！

國(guó)際金融報(bào) 2025-03-30 09:26
化工品漲價(jià)獲高度關(guān)注！2家A股公司獲140家機(jī)構(gòu)調(diào)研

證券時(shí)報(bào)網(wǎng) 張一帆 2025-03-30 12:17
剛剛！特朗普關(guān)稅，傳來(lái)大消息！

券商中國(guó) 陳銘 2025-03-30 13:09

時(shí)報(bào)熱榜

換一換

熱點(diǎn)視頻

換一換