清博智能王歡:實(shí)時(shí)接入結(jié)構(gòu)化數(shù)據(jù)的大語(yǔ)言模型是如何練成的?
原創(chuàng)
2023-06-27 20:15 星期二
科創(chuàng)板日?qǐng)?bào)記者 徐賜豪
①?gòu)牡讓幼鰝€(gè)大模型有兩個(gè)關(guān)鍵點(diǎn):一個(gè)是算力,一個(gè)是數(shù)據(jù)質(zhì)量;算力的大小直接限制參數(shù)的大小,數(shù)據(jù)的質(zhì)量決定了模型的好壞。
②先問(wèn)基于2000億開(kāi)源數(shù)據(jù)集、百萬(wàn)級(jí)專(zhuān)業(yè)人工數(shù)據(jù)集,具有數(shù)據(jù)可溯源、實(shí)時(shí)同步、可視化分析、多參數(shù)版本特點(diǎn),同時(shí)支持用戶(hù)本地化部署。

《科創(chuàng)板日?qǐng)?bào)》6月27日訊(記者 徐賜豪) 今年以來(lái),百度、360、阿里巴巴、科大訊飛等互聯(lián)網(wǎng)巨頭相繼發(fā)布自己的通用大模型,儼然形成了“千模大戰(zhàn)”局勢(shì)。

此外,更多垂直行業(yè)企業(yè)也加入了這場(chǎng)“狂熱”。日前,在中國(guó)江寧2023元宇宙產(chǎn)業(yè)·人才高峰論壇暨AIGC發(fā)展大會(huì)上,清博智能科技有限公司發(fā)布了針對(duì)融媒體行業(yè)的首個(gè)實(shí)時(shí)接入全網(wǎng)結(jié)構(gòu)化數(shù)據(jù)的大語(yǔ)言模型——“先問(wèn)”。

本期《元宇宙之約》我們對(duì)話(huà)了清博智能技術(shù)副總裁王歡。其在大數(shù)據(jù)與AI領(lǐng)域有十多年的從業(yè)經(jīng)驗(yàn),其負(fù)責(zé)設(shè)計(jì)與研發(fā)的清博輿情平臺(tái)服務(wù)數(shù)十萬(wàn)用戶(hù),并且在一站式自動(dòng)機(jī)器學(xué)習(xí)平臺(tái)、智能對(duì)話(huà)平臺(tái)的構(gòu)建與研發(fā)有豐富的實(shí)踐經(jīng)驗(yàn)。

他透露,先問(wèn)核心團(tuán)隊(duì)有10多人,主要來(lái)自包括來(lái)自清華、中科大、合工大、華盛頓大學(xué)等國(guó)內(nèi)外知名高校的技術(shù)人員。先問(wèn)基于2000億開(kāi)源數(shù)據(jù)集、百萬(wàn)級(jí)專(zhuān)業(yè)人工數(shù)據(jù)集,具有數(shù)據(jù)可溯源、實(shí)時(shí)同步、可視化分析、多參數(shù)版本特點(diǎn),同時(shí)支持用戶(hù)本地化部署。

在他看來(lái),從底層做個(gè)大模型有兩個(gè)關(guān)鍵點(diǎn):一個(gè)是算力,一個(gè)是數(shù)據(jù)質(zhì)量;算力的大小直接限制參數(shù)的大小,數(shù)據(jù)的質(zhì)量決定了模型的好壞。

image

我們注意到先問(wèn)大模型提到數(shù)據(jù)可溯源,這個(gè)怎么來(lái)理解?

王歡:“先問(wèn)”給了用戶(hù)“溯源”的權(quán)利。對(duì)于AI給出的每一句回答,用戶(hù)都可以單獨(dú)查詢(xún)它的來(lái)源。對(duì)于需要使用AI來(lái)產(chǎn)出正式內(nèi)容的用戶(hù),這種方式雖然會(huì)多花些時(shí)間,但能核實(shí)真實(shí)度。

在模型回答問(wèn)題的實(shí)時(shí)性上,先問(wèn)跟ChatGPT的不同在哪里?

王歡:比如你問(wèn)ChatGPT對(duì)于埃隆馬斯克最近訪華怎么看,因?yàn)樗腔?018年那次訪問(wèn)回答的,這個(gè)就不準(zhǔn)確。當(dāng)然ChatGPT可以基于插件來(lái)回答。

我們跟ChatGPT最大的差別是,我們的數(shù)據(jù)是結(jié)構(gòu)化的。我知道哪些媒體的權(quán)重高,哪些媒體數(shù)據(jù)的質(zhì)量更高。以及這些內(nèi)容是否符合社會(huì)價(jià)值觀,包括正負(fù)面信息都可以被篩選出來(lái)。底層數(shù)據(jù)都會(huì)根據(jù)我們制定的200多個(gè)數(shù)據(jù)標(biāo)簽分類(lèi)好。

我們基于這些結(jié)構(gòu)化的數(shù)據(jù)就可以很好召回用戶(hù)想要的數(shù)據(jù)。然后再結(jié)合模型的能力,實(shí)時(shí)生成比較好的回答。這就是先問(wèn)跟ChatGPT的最大不同。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)有何不同?

王歡:非結(jié)構(gòu)化數(shù)據(jù),比如說(shuō)你現(xiàn)在訪問(wèn)的網(wǎng)頁(yè),你只看正文部分它就是文本,它的內(nèi)容就是原始正文。搜素引擎看的就是原始正文,給它訓(xùn)練的數(shù)據(jù)也是原始正文。

結(jié)構(gòu)化數(shù)據(jù)不僅知道它的原始正文信息,還對(duì)這些信息做了結(jié)構(gòu)化處理,包括發(fā)布提及的地域信息、文本分詞信息、內(nèi)容分類(lèi)以及正負(fù)面;另外還有發(fā)布的作者信息,比如發(fā)布媒體的畫(huà)像、權(quán)重等信息。這樣你可以找回一些質(zhì)量更高或者可信度更高的信息。

先問(wèn)如何兼顧模型的回答與人類(lèi)價(jià)值觀相對(duì)齊兩個(gè)問(wèn)題?

王歡:第一,本身數(shù)據(jù)源就很重要,因?yàn)閲?guó)內(nèi)的數(shù)據(jù)源基本上都是經(jīng)過(guò)“審核”符合社會(huì)價(jià)值觀的。

第二,我們本身是結(jié)構(gòu)化數(shù)據(jù),對(duì)數(shù)據(jù)已經(jīng)打了許多標(biāo)簽,對(duì)數(shù)據(jù)是有畫(huà)像的。比如說(shuō)人民日?qǐng)?bào)、央視的數(shù)據(jù)內(nèi)容肯定沒(méi)有問(wèn)題,沒(méi)有依據(jù)的媒體的可能就不會(huì)被召回,這是數(shù)據(jù)層面。

第三,我們對(duì)模型本身做了一些無(wú)害訓(xùn)練,以避免它去回答這些違反價(jià)值觀的提問(wèn),在“先問(wèn)”平臺(tái)上,我們也前置了有害問(wèn)題檢測(cè)模型,進(jìn)一步防止模型被誘導(dǎo)輸出有害內(nèi)容。

如何理解多模態(tài)大模型?

王歡:現(xiàn)在“先問(wèn)”可以回答的主要還是文本,但以后其實(shí)還有圖像、視頻、音頻等回答模式。多模態(tài)的做法主要有兩種:一種是大語(yǔ)言模型只做語(yǔ)言,能理解你的需求,比如你需要畫(huà)一張畫(huà),可以調(diào)用模型給你生成,目前這種方式比較多;另外一種就是融合性,這種模型的數(shù)據(jù)本身既包含了文本,又包含圖像、音頻、視頻,這種生成是端到端的模式。

做好大模型的關(guān)鍵在于算力和數(shù)據(jù)質(zhì)量

清博智能是什么時(shí)候開(kāi)始做大模型的?

王歡:在Transformer出來(lái)的時(shí)候我們就開(kāi)始做生成式的語(yǔ)言模型了。因?yàn)槲覀儍?nèi)部也要寫(xiě)報(bào)告,幾百人團(tuán)隊(duì)的人力成本比較高,我們就想機(jī)器來(lái)寫(xiě)。在ChatGPT火爆之前,我們嘗試了很多模型,但是效果不太好,一個(gè)是數(shù)據(jù)的問(wèn)題,一個(gè)就是訓(xùn)練方法不夠好,參數(shù)也不夠多,生成的報(bào)告可讀性不高。

ChatGPT大模型出來(lái)以后,我們發(fā)現(xiàn)它擅長(zhǎng)寫(xiě)文章,然后就采用這種模式,基于開(kāi)源的基座模型結(jié)合自己的高質(zhì)量報(bào)告數(shù)據(jù),以及數(shù)據(jù)分析引擎,開(kāi)發(fā)了“先問(wèn)”,并且效果好了很多。

在做大模型過(guò)程中,你們團(tuán)隊(duì)遇到哪些難點(diǎn)?又是如何克服困難的?

王歡:一個(gè)是數(shù)據(jù)本身,因?yàn)槭墙Y(jié)構(gòu)化數(shù)據(jù),怎樣召回這些數(shù)據(jù)是一個(gè)大的問(wèn)題。我們要有自己的獨(dú)特算法,讓模型召回的數(shù)據(jù)質(zhì)量更高。另外,它上下文的記憶長(zhǎng)度是有限的,在有限長(zhǎng)度之內(nèi)給模型提供哪些數(shù)據(jù),這是我們需要考慮的問(wèn)題。此外就是如何讓模型理解上下文,特別是在多輪交互方面是很難的。

為了攻克這些難點(diǎn),我們除了做大模型外,也做了一些小模型。數(shù)據(jù)方面比如排序模型、指數(shù)模型等,基于這些小模型讓召回的數(shù)據(jù)更加可靠。另外我們?cè)诖竽P偷幕A(chǔ)上,結(jié)合大量人工標(biāo)注的數(shù)據(jù)來(lái)訓(xùn)練模型對(duì)用戶(hù)意圖的理解能力,更好地理解用戶(hù)的提問(wèn)意圖。

如果是100分制的話(huà),“先問(wèn)”可以達(dá)到七八十分,目前還在持續(xù)優(yōu)化中。

回過(guò)頭來(lái)看,做好大模型的關(guān)鍵點(diǎn)在哪里?

王歡:關(guān)鍵點(diǎn)有兩個(gè):一個(gè)就是算力的大小,一個(gè)就是數(shù)據(jù)質(zhì)量的好壞。因?yàn)槊考业牡讓铀惴ㄆ鋵?shí)都差不多。算力大小直接限制了參數(shù)的大小,數(shù)據(jù)的質(zhì)量決定了模型的好壞。

對(duì)于做大模型來(lái)說(shuō),成本結(jié)構(gòu)是怎樣的?

王歡:百分之六、七?十的成本花在算力上,人工、算法的成本比較低,其他成本就是數(shù)據(jù)標(biāo)注與處理的成本,這個(gè)百分之二十左右。

訓(xùn)練基座模型的成本很高,它本身需要上萬(wàn)億Token的量級(jí)的數(shù)據(jù),這個(gè)數(shù)據(jù)集的構(gòu)建成本很高。但是對(duì)于垂直企業(yè)來(lái)說(shuō),比如說(shuō)只是做醫(yī)療業(yè)務(wù)的,它的基座模型別人已經(jīng)訓(xùn)練好了,不用萬(wàn)億的Token來(lái)訓(xùn)練模型,這個(gè)訓(xùn)練成本就低了很多。

收藏
60.07W
我要評(píng)論
歡迎您發(fā)表有價(jià)值的評(píng)論,發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除,您的賬號(hào)將禁止評(píng)論。
發(fā)表評(píng)論
要聞
股市
關(guān)聯(lián)話(huà)題
4.24W 人關(guān)注
1.14W 人關(guān)注
8831 人關(guān)注