智源研究院發(fā)布世界模型Emu3 多模態(tài)AGI漸行漸近?
原創(chuàng)
2024-10-22 10:49 星期二
科創(chuàng)板日?qǐng)?bào)記者 李明明
①據(jù)介紹,Emu3證明了下一個(gè)token預(yù)測(cè)能在多模態(tài)任務(wù)中有高性能的表現(xiàn);
②目前,多模態(tài)生成模型的發(fā)展相對(duì)滯后,該領(lǐng)域未來(lái)的發(fā)展?jié)摿^大。

《科創(chuàng)板日?qǐng)?bào)》10月22日訊(記者 李明明)日前,人工智能領(lǐng)域的新型研發(fā)機(jī)構(gòu)智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。據(jù)介紹,該模型實(shí)現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。

當(dāng)前,行業(yè)現(xiàn)有的多模態(tài)大模型多為對(duì)于不同任務(wù)而訓(xùn)練的專用模型,比如Stable Diffusion之于文生圖,Sora之于文生視頻,GPT-4V之于圖生文。但是現(xiàn)有模型的能力多為單一分散的能力組合,而不是原生的統(tǒng)一能力,比如目前Sora還做不到圖像和視頻的理解。

而下一token預(yù)測(cè)被認(rèn)為是通往AGI的可能路徑,但這種范式在語(yǔ)言以外的多模態(tài)任務(wù)中沒有被證明。

智源研究院院長(zhǎng)王仲遠(yuǎn)告訴《科創(chuàng)板日?qǐng)?bào)》記者,“Emu3證明了下一個(gè)token預(yù)測(cè)能在多模態(tài)任務(wù)中有高性能的表現(xiàn),這為構(gòu)建多模態(tài)AGI提供了廣闊的技術(shù)前景。Emu3有機(jī)會(huì)將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上,為大規(guī)模的多模態(tài)訓(xùn)練和推理提供基礎(chǔ),這一簡(jiǎn)單的架構(gòu)設(shè)計(jì)將利于產(chǎn)業(yè)化。同時(shí),該訓(xùn)練技術(shù)能夠以較大程度復(fù)用現(xiàn)有的大模型訓(xùn)練基礎(chǔ)設(shè)施,降低了對(duì)新基礎(chǔ)設(shè)施的需求,從而加速多模態(tài)大模型的迭代和最終落地。未來(lái),多模態(tài)世界模型將促進(jìn)機(jī)器人大腦、自動(dòng)駕駛、多模態(tài)對(duì)話和推理等場(chǎng)景應(yīng)用。而多模態(tài)大模型通過(guò)統(tǒng)一表示空間實(shí)現(xiàn)了跨模態(tài)的統(tǒng)一訓(xùn)練和生成,展現(xiàn)巨大潛力?!?/p>

一位大模型領(lǐng)域?qū)<乙矊?duì)《科創(chuàng)板日?qǐng)?bào)》記者分析,當(dāng)前,視覺的理解模型和生成模型各自分開獨(dú)立發(fā)展,這也是多模態(tài)領(lǐng)域面臨的問題,也會(huì)造成生成模型的生成能力強(qiáng)而理解能力弱,或者理解模型的理解能力強(qiáng)而生成能力弱。因此,多模態(tài)大模型亟需將理解和生成統(tǒng)一在一個(gè)模型里。目前,多模態(tài)生成模型的發(fā)展相對(duì)滯后,該領(lǐng)域未來(lái)的發(fā)展?jié)摿^大。

image

(圖注:Emu3圖片理解案例)

具體就Emu3如何實(shí)現(xiàn)圖像、視頻和文字的統(tǒng)一輸入和輸出,王仲遠(yuǎn)總結(jié)道,團(tuán)隊(duì)構(gòu)建了一個(gè)統(tǒng)一的Tokenizer系統(tǒng),將文本、圖像、視頻等各種模態(tài)信息映射到一個(gè)離散空間,并通過(guò)auto Regressive的方式進(jìn)行統(tǒng)一訓(xùn)練和生成。這相當(dāng)于為文字、圖像、視頻發(fā)明了一種統(tǒng)一的“新語(yǔ)言”,可以在同一空間中表達(dá)。

王仲遠(yuǎn)表示,“Emu3 會(huì)為未來(lái)多模態(tài)基座模型的發(fā)展指明一個(gè)方向,是下一代的多模態(tài)大模型的訓(xùn)練范式。對(duì)于這樣的技術(shù)路線,需要各界共同努力,才能加速多模態(tài)基座模型的發(fā)展。期待在產(chǎn)業(yè)轉(zhuǎn)化過(guò)程中,Emu3能夠像悟道系列,與各大模型公司、互聯(lián)網(wǎng)企業(yè)等合作,共同推進(jìn)技術(shù)的應(yīng)用?!?/p>

收藏
102.31W
我要評(píng)論
歡迎您發(fā)表有價(jià)值的評(píng)論,發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除,您的賬號(hào)將禁止評(píng)論。
發(fā)表評(píng)論
要聞
股市
關(guān)聯(lián)話題
4.24W 人關(guān)注
8555 人關(guān)注