券商中國(guó)
2025-03-30 10:34
阿里巴巴發(fā)布了新一代端到端多模態(tài)旗艦?zāi)P蚎wen2.5-Omni,號(hào)稱(chēng)具備全方位多模態(tài)感知能力,看聽(tīng)說(shuō)寫(xiě)樣樣精通。
采用全新的Thinker-Talker雙核架構(gòu),Thinker模塊負(fù)責(zé)處理多模態(tài)輸入并生成語(yǔ)義表征和文本內(nèi)容,Talker模塊則負(fù)責(zé)將這些信息轉(zhuǎn)化為流暢的語(yǔ)音輸出。這種架構(gòu)實(shí)現(xiàn)了端到端的統(tǒng)一,支持實(shí)時(shí)音視頻交互和流暢的語(yǔ)音生成。
能夠無(wú)縫處理文本、圖像、音頻和視頻等多種輸入形式,并同時(shí)生成文本和語(yǔ)音輸出。支持分塊輸入和即時(shí)輸出,實(shí)現(xiàn)真正的實(shí)時(shí)交互。
已在Hugging Face、ModelScope、DashScope和GitHub等平臺(tái)開(kāi)源,方便開(kāi)發(fā)者體驗(yàn)和使用。
相比現(xiàn)有方案,語(yǔ)音生成的自然度和穩(wěn)定性更高。在音頻能力上優(yōu)于同等規(guī)模的Qwen2-Audio,與Qwen2.5-VL-7B保持同等水平。在語(yǔ)音指令理解方面表現(xiàn)出色,效果可媲美文本輸入。
校對(duì):蘇煥文