英偉達(dá)推全新視覺AI語音模型 可以直接看圖聊天
- 來源:互聯(lián)網(wǎng)
- 作者:硅星人
- 編輯:陶笛
如今AI大時(shí)代,世界各大巨頭都有自己的特色AI產(chǎn)品計(jì)劃,日前據(jù)英偉達(dá)官方消息,英偉達(dá)聯(lián)合 Georgia Tech、UMD 和 HKPU 的研究團(tuán)隊(duì)推出了全新的視覺語言模型 ——NVEagle。
據(jù)悉,NVEagle 能夠理解復(fù)雜的現(xiàn)實(shí)場景,通過視覺輸入進(jìn)行更好的解讀和回應(yīng)。它的設(shè)計(jì)核心在于將圖像轉(zhuǎn)化為視覺標(biāo)記,再與文本嵌入相結(jié)合,進(jìn)而提升了對視覺信息的理解。
NVEagle包括了三個(gè)版本:Eagle-X5-7B、Eagle-X5-13B 以及 Eagle-X5-13B-Chat。其中,7B 和13B 版本主要用于一般的視覺語言任務(wù),而13B-Chat 版本則專門針對對話式 AI 進(jìn)行了微調(diào),能夠更好地進(jìn)行基于視覺輸入的互動(dòng)。
NVEagle 的一個(gè)亮點(diǎn)在于采用了混合專家(MoE)機(jī)制,能夠根據(jù)不同任務(wù)動(dòng)態(tài)選擇最合適的視覺編碼器,這極大提升了對復(fù)雜視覺信息的處理能力。該模型已在 Hugging Face 上發(fā)布,方便研究人員和開發(fā)者使用。
玩家點(diǎn)評 (0人參與,0條評論)
熱門評論
全部評論