亚洲欧美综合久久成人网站,国产精品嫩模第一页在线观看,国产一区二区三区在线网站

AI多模態(tài)浪潮來(lái)了！ChatGPT迎重磅升級(jí) 算力需求噴發(fā)可期

原創(chuàng)

2023-09-26 10:40 星期二

科創(chuàng)板日?qǐng)?bào) 鄭遠(yuǎn)方

①最新的ChatGPT能講故事、進(jìn)行語(yǔ)音對(duì)話(huà)，還會(huì)看圖；
②OpenAI將能看圖的模型稱(chēng)作GPT-4V(ision)，還測(cè)試了GPT-4V的驗(yàn)證碼破解及地理定位能力；
③語(yǔ)音與圖像數(shù)據(jù)大小顯著高于文本，券商指出，多模態(tài)大模型的訓(xùn)練推理算力需求將大幅攀升。

《科創(chuàng)板日?qǐng)?bào)》9月26日訊（編輯鄭遠(yuǎn)方） 當(dāng)?shù)貢r(shí)間25日，OpenAI宣布ChatGPT迎來(lái)重磅更新：這個(gè)聊天機(jī)器人如今“會(huì)看、會(huì)說(shuō)、會(huì)聽(tīng)”——換言之，ChatGPT加入了語(yǔ)音與圖像功能。未來(lái)兩周內(nèi)，Plus用戶(hù)與企業(yè)用戶(hù)便能體驗(yàn)新功能，開(kāi)發(fā)人員等其他用戶(hù)群體也有望在不久的將來(lái)體驗(yàn)。

其中，最受外界關(guān)注的是ChatGPT的圖像理解能力。據(jù)介紹，用戶(hù)可以向ChatGPT展示一張或多張圖片，排查為何燒烤爐無(wú)法啟動(dòng)，檢查冰箱里的菜能做什么美食，或分析復(fù)雜圖表得出數(shù)據(jù)。若想讓ChatGPT關(guān)注圖片中的特定部分，還可以使用APP中的繪圖工具高亮標(biāo)注。

在OpenAI給出的示例視頻中可以看到，當(dāng)用戶(hù)向ChatGPT發(fā)送一張自行車(chē)照片、詢(xún)問(wèn)如何調(diào)低車(chē)墊時(shí)，ChatGPT不僅會(huì)自發(fā)觀(guān)察自行車(chē)型號(hào)、辨認(rèn)零部件、給出詳細(xì)步驟，還會(huì)看說(shuō)明書(shū)，并分辨用戶(hù)現(xiàn)有工具能否完成這項(xiàng)工作。

值得注意的是，同日發(fā)布的一篇論文中，OpenAI將這一能看圖的模型稱(chēng)作GPT-4V(ision)。該模型在2022年已完成訓(xùn)練，之后在2023年早些時(shí)候開(kāi)始早期測(cè)試訪(fǎng)問(wèn)。

借助GPT-4V，今年3月OpenAI與Be My Eyes組織合作開(kāi)發(fā)Be My AI，可為盲人與視力障礙人士描述外界世界。測(cè)試表明，Be My AI可為50萬(wàn)盲人和視力障礙用戶(hù)提供工具，滿(mǎn)足他們?cè)谛畔?、文化和就業(yè)方面的需求。

另外，OpenAI還測(cè)試了GPT-4V的驗(yàn)證碼破解及地理定位能力，前者表明模型具備解決謎題與執(zhí)行復(fù)雜視覺(jué)推理任務(wù)的能力，后者則展現(xiàn)出了模型在搜索物品/地點(diǎn)的用處。但這兩項(xiàng)功能將涉及網(wǎng)絡(luò)安全及隱私問(wèn)題。

至于本次更新的另一語(yǔ)音識(shí)別與生成功能，OpenAI表示，用戶(hù)可以用這一功能為孩子講述睡前故事，還可以在吵架時(shí)作為幫手。

OpenAI與專(zhuān)業(yè)配音演員合作，提供了5種不同的聲音。另外，公司還與Spotify展開(kāi)合作，通過(guò)這一功能將播客翻譯為其他語(yǔ)言，同時(shí)保留播客主持人的聲音。

值得一提的是，數(shù)據(jù)顯示，近期ChatGPT流量回升。SimilarWeb數(shù)據(jù)顯示，9月11日那一周，ChatGPT流量較前一周增長(zhǎng)約12%。另一家分析公司Sensor Tower報(bào)告稱(chēng)，8月最后兩周全球ChatGPT應(yīng)用程序用戶(hù)每周增長(zhǎng)超過(guò)10%。據(jù)悉，流量增長(zhǎng)的主要原因?yàn)閷W(xué)生開(kāi)始返校，且印度及巴西市場(chǎng)迎來(lái)增長(zhǎng)。

▌多模態(tài)大模型成兵家必爭(zhēng)之地算力需求顯著攀升

如今，多模態(tài)功能已成為各家AI大模型的必爭(zhēng)之地。Meta最近推出AudioCraft，通過(guò)AI生成音樂(lè)；谷歌Bard及必應(yīng)機(jī)器人均已部署多模式功能；蘋(píng)果也在試驗(yàn)AI生成語(yǔ)音Personal Voice。

隨著AI感知、交互與生成能力快速發(fā)展，應(yīng)用場(chǎng)景與生態(tài)也有望進(jìn)一步豐富。而語(yǔ)音與圖像數(shù)據(jù)大小顯著高于文本，券商指出，多模態(tài)大模型的訓(xùn)練推理算力需求將大幅攀升。

例如被谷歌寄予厚望的多模態(tài)大模型Gemini，據(jù)SemiAnalysi分析師Dylan Patel和Daniel Nishball透露，其已開(kāi)始在TPUv5 Pod上進(jìn)行訓(xùn)練，算力高達(dá)~1e26 FLOPS，是訓(xùn)練GPT-4所需算力的5倍。

華為副董事長(zhǎng)、輪值董事長(zhǎng)、CFO孟晚舟日前也表示，“人工智能的發(fā)展，算力是核心驅(qū)動(dòng)力。大模型需要大算力，算力大小決定著AI迭代與創(chuàng)新的速度，也影響著經(jīng)濟(jì)發(fā)展的速度。算力的稀缺和昂貴，已經(jīng)成為制約AI發(fā)展的核心因素?！?/p>

國(guó)信證券指出，AI三元素（大模型、算力、應(yīng)用）呈螺旋式促進(jìn)關(guān)系。AI三元素以“模型更新-算力芯片迭代、單位tokens成本降低-應(yīng)用增加”循環(huán)往復(fù)，當(dāng)三者中有一個(gè)要素噴發(fā)，就是強(qiáng)刺激期；三者同時(shí)沒(méi)有更新，就會(huì)進(jìn)入停滯期，等待下次爆發(fā)。

多模態(tài)大模型是未來(lái)發(fā)展趨勢(shì)。通過(guò)將不同數(shù)據(jù)類(lèi)型相互關(guān)聯(lián)結(jié)合，可以大幅提高模型準(zhǔn)確性和魯棒性，應(yīng)用場(chǎng)景進(jìn)一步拓展。

同時(shí)，3月谷歌發(fā)布多模態(tài)具身視覺(jué)語(yǔ)言模型（VLM）PaLM-E，其可用于機(jī)器人領(lǐng)域；7月谷歌發(fā)布新一代視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型Robotics Transformer 2（RT-2），專(zhuān)用于機(jī)器人領(lǐng)域，看好大模型賦能機(jī)器人趨勢(shì)，分析師看好大模型賦能機(jī)器人。

閱125.37W

我要評(píng)論

反饋意見(jiàn)