IDEA研究院講席科學(xué)家張家興：中文世界需要有中國(guó)文化內(nèi)核的AIGC模型|財(cái)專訪

原創(chuàng)

2022-12-20 21:34 星期二

財(cái)聯(lián)社記者崔銘

受海外Stability AI公司開(kāi)源Stable Diffusion模型啟發(fā)，CCNL于今年11月1日正式開(kāi)源了自主研發(fā)的首個(gè)中文Stable Diffusion模型“太乙”，將AI繪畫(huà)底層模型帶入中文語(yǔ)境。

《安安訪談錄》是界面財(cái)聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談?lì)悪谀俊耐顿Y角度對(duì)話1000位行業(yè)領(lǐng)軍人物，覆蓋傳媒創(chuàng)新、VC/PE、信息服務(wù)、金融科技、交易體系、戰(zhàn)略新興等方向。

《財(cái)專訪》是由《安安訪談錄》出品的系列專訪，財(cái)聯(lián)社上市公司報(bào)道部聚焦行業(yè)熱點(diǎn)，通過(guò)專訪各類專家、領(lǐng)軍人物，致力尋找投資價(jià)值標(biāo)的，還原行業(yè)發(fā)展邏輯。

本期訪談人物：

IDEA研究院講席科學(xué)家張家興

“中文世界需要有中國(guó)文化內(nèi)核的AIGC模型，行業(yè)發(fā)展還需要有更多的AIGC產(chǎn)品創(chuàng)新出現(xiàn)，傳統(tǒng)產(chǎn)品都值得用AIGC做一次升級(jí)?！?/p>

▍個(gè)人介紹

現(xiàn)任IDEA研究院講席科學(xué)家，認(rèn)知計(jì)算與自然語(yǔ)言研究中心負(fù)責(zé)人；曾任微軟亞洲研究院研究員、螞蟻金服資深算法專家、360數(shù)科首席科學(xué)家。

▍第一標(biāo)簽

AIGC底層技術(shù)研究和實(shí)踐的領(lǐng)軍者

▍組織簡(jiǎn)介

粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院（International Digital Economy Academy，簡(jiǎn)稱“IDEA研究院”）成立于2020年，目前已聚集包括院士、世界著名大學(xué)教授、世界知名開(kāi)源系統(tǒng)發(fā)明人在內(nèi)的國(guó)際一流技術(shù)專家，致力于在AI基礎(chǔ)技術(shù)與開(kāi)源系統(tǒng)、人工智能金融科技、區(qū)塊鏈技術(shù)與機(jī)密計(jì)算、企業(yè)級(jí)AI系統(tǒng)、產(chǎn)業(yè)智能物聯(lián)網(wǎng)與智能機(jī)器人等領(lǐng)域研發(fā)國(guó)際頂尖成果，并培育一批國(guó)際領(lǐng)先科技企業(yè)，帶動(dòng)深圳乃至大灣區(qū)萬(wàn)億級(jí)數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展。

IDEA研究院認(rèn)知計(jì)算與自然語(yǔ)言研究中心（Cognitive Computing and Natural Language，CCNL）致力于推動(dòng)預(yù)訓(xùn)練大模型為代表的新一代認(rèn)知與自然語(yǔ)言基礎(chǔ)前沿技術(shù)的進(jìn)一步發(fā)展，力圖解決大模型實(shí)際落地過(guò)程中的全部技術(shù)問(wèn)題，構(gòu)建對(duì)話機(jī)器人、知識(shí)抽取、知識(shí)體系等自然語(yǔ)言領(lǐng)域的新的技術(shù)架構(gòu)，打造認(rèn)知人工智能的新技術(shù)范式。

AIGC正成為繼PGC和UGC之后的全新內(nèi)容創(chuàng)作模式，底層模型能力突破帶來(lái)的行業(yè)應(yīng)用潛力初現(xiàn)。在AI繪畫(huà)這一技術(shù)應(yīng)用分支，受海外Stability AI公司開(kāi)源Stable Diffusion模型推動(dòng)，行業(yè)準(zhǔn)入門檻大幅降低，AI繪畫(huà)的產(chǎn)業(yè)化和商業(yè)化進(jìn)程加速。

由此可見(jiàn)，在AIGC行業(yè)發(fā)展初期，底層模型的迭代、開(kāi)源將成為重要的核心推動(dòng)力。基于此，CCNL于今年11月1日正式開(kāi)源了自主研發(fā)的首個(gè)中文Stable Diffusion模型“太乙”，旨在更好地助力中國(guó)AIGC文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新發(fā)展。

IDEA研究院講席科學(xué)家張家興在接受財(cái)聯(lián)社記者專訪時(shí)表示，中國(guó)并不缺乏產(chǎn)品創(chuàng)新者，當(dāng)下欠缺的是AIGC底層能力的提供者?！拔覀儓F(tuán)隊(duì)希望在中國(guó)的AIGC產(chǎn)業(yè)里，承擔(dān)Open AI跟Stability AI這樣的角色，不斷迭代底層模型能力，助力上層出現(xiàn)更多的產(chǎn)品創(chuàng)新，服務(wù)于更廣泛的用戶?！?/p>

01

——————————

AIGC模型也需要有中國(guó)文化內(nèi)核

受海外Stability AI公司開(kāi)源Stable Diffusion模型啟發(fā)，CCNL于今年11月1日正式開(kāi)源了自主研發(fā)的首個(gè)中文Stable Diffusion模型“太乙”，將AI繪畫(huà)底層模型帶入中文語(yǔ)境。

之所以選擇推出“太乙”，張家興表示，一方面因?yàn)橛⑽哪Ｐ蜁?huì)產(chǎn)生翻譯損耗、難以生成具有中國(guó)文化內(nèi)核的圖片。另一方面Stable Diffusion模型已經(jīng)在英文世界中證明了自己的價(jià)值，即極大降低了AIGC行業(yè)門檻，中文世界同樣需要一個(gè)“原汁原味”的Stable Diffusion模型去推動(dòng)整個(gè)產(chǎn)業(yè)發(fā)展。

對(duì)于AI來(lái)說(shuō)，“投喂”什么樣的數(shù)據(jù)會(huì)直接決定學(xué)習(xí)結(jié)果。例如，在英文Stable Diffusion模型中輸入“宮殿”關(guān)鍵詞，由于系統(tǒng)默認(rèn)為英文思維，故輸出的也是西方類型的各式宮殿圖片。而在“太乙”中輸入“宮殿”，生成的則是具有中國(guó)特色的宮殿建筑。輸入人像、古詩(shī)類描述詞也是同樣的道理。

張家興透露，“太乙”的訓(xùn)練數(shù)據(jù)量超過(guò)了1億對(duì)的中文的圖文對(duì)?！拔覀円呀?jīng)把整個(gè)團(tuán)隊(duì)都投入進(jìn)去了，幾十個(gè)成員基本都是在圍繞著AIGC模型研究實(shí)踐，也希望做一些更貼近下游應(yīng)用的AIGC模型?！?/p>

實(shí)際上，目前Stable Diffusion模型技術(shù)并不完美。一個(gè)最明顯的不足點(diǎn)是，當(dāng)圖片為照片風(fēng)格時(shí)，人臉生成和人手的生成質(zhì)量較差。為此，“太乙”加入了圖像編輯功能，用戶可以對(duì)一張圖片的人臉部分進(jìn)行單獨(dú)修復(fù)，這是原版Stable Diffusion模型無(wú)法支持的。

02

——————————

“太乙”只是第一步，生態(tài)合作是關(guān)鍵

在整個(gè)AIGC行業(yè)，“太乙”作為底層模型，為應(yīng)用層提供技術(shù)支撐。張家興表示，推出“太乙”只是CCNL在AIGC方向上走出的第一步，后續(xù)團(tuán)隊(duì)將從三個(gè)層面持續(xù)發(fā)力。

一是不斷進(jìn)行模型迭代，對(duì)模型結(jié)構(gòu)進(jìn)行創(chuàng)新、構(gòu)建質(zhì)量越來(lái)越高的數(shù)據(jù)集等，完善最基礎(chǔ)最底層的AIGC模型。目前CCNL已經(jīng)開(kāi)源了88個(gè)預(yù)訓(xùn)練模型，整體稱為“封神榜”是目前中國(guó)最大的預(yù)訓(xùn)練模型開(kāi)源體系。

二是推出針對(duì)特定領(lǐng)域的AIGC模型，例如二次元、科幻、游戲等領(lǐng)域。張家興認(rèn)為，一個(gè)通用的AIGC模型很難在所有領(lǐng)域上都表現(xiàn)出色，而與各垂直行業(yè)業(yè)內(nèi)公司合作，有助于一同推出更多精準(zhǔn)的模型工具。

三是通過(guò)API（Application Program Interface，應(yīng)用程序界面）將模型接入更多的業(yè)務(wù)場(chǎng)景?！疤摇眻F(tuán)隊(duì)目前已經(jīng)推出了API功能，免費(fèi)提供給用戶，每人每天有1萬(wàn)的調(diào)用額度?！斑@足以支持一個(gè)小團(tuán)隊(duì)前期去做產(chǎn)品創(chuàng)新，在特定領(lǐng)域面向特定用戶的公司，往往有自己獨(dú)特的經(jīng)驗(yàn)和產(chǎn)品上的想法。這個(gè)時(shí)候可以直接調(diào)用我們的API構(gòu)建產(chǎn)品，如果后期試驗(yàn)的比較成功了，我們可以再進(jìn)一步探討如何做一些針對(duì)產(chǎn)品的定制化的模型?！睆埣遗d表示。

當(dāng)前階段，“太乙”已經(jīng)在推進(jìn)一些生態(tài)合作，對(duì)象主要瞄準(zhǔn)在數(shù)據(jù)和場(chǎng)景上有優(yōu)勢(shì)的公司，CCNL提供模型技術(shù)支持，對(duì)方公司則專注于產(chǎn)品運(yùn)營(yíng)，雙方形成優(yōu)勢(shì)互補(bǔ)關(guān)系。

“一種是對(duì)方的產(chǎn)品已經(jīng)跑在前面了，但急需技術(shù)升級(jí)，以及更好的 AIGC模型內(nèi)核。另一種是對(duì)方本身有很強(qiáng)的數(shù)據(jù)圖像方面的優(yōu)勢(shì)，通過(guò)‘太乙’技術(shù)賦予數(shù)據(jù)新的價(jià)值。因?yàn)橛械臄?shù)據(jù)是有版權(quán)的，有一定獲取成本，現(xiàn)在用AIGC的方式給業(yè)務(wù)數(shù)據(jù)再進(jìn)行一次大規(guī)模的擴(kuò)充，這樣他們就有了更多自有版權(quán)了，并且基本是零成本。”張家興表示。

張家興透露，目前團(tuán)隊(duì)也在跟一些在圖片數(shù)據(jù)上非常有優(yōu)勢(shì)的頭部公司商議，推出一些商業(yè)版的模型，能夠生成更高分辨率更高清晰度更寫(xiě)真的照片。

03

——————————

中國(guó)AIGC產(chǎn)業(yè)的瓶頸和機(jī)會(huì)

AIGC被業(yè)界廣泛視為解放未來(lái)生產(chǎn)力的工具，與“降本增效”緊密掛鉤。在張家興看來(lái)，AIGC改變的更多是生產(chǎn)方式?！艾F(xiàn)在AI生成一張圖片基本上1秒鐘就夠了，就算需要人工篩選也只需要幾分鐘。但過(guò)去如果是純?nèi)斯ど?，可能以天為基?shù)?！痹贏I的加持下，人在創(chuàng)作過(guò)程中更多是提供創(chuàng)意，以及篩選和挑選，顛覆了以往的生產(chǎn)方式。

張家興認(rèn)為，“降本增效”并不是AIGC真正的潛力。“降本增效只是任何一個(gè)技術(shù)剛出來(lái)時(shí)，大家都會(huì)關(guān)注的點(diǎn)。但時(shí)間久了，讓這個(gè)技術(shù)真正被大家廣泛使用，成為社會(huì)底層的支撐性技術(shù)，都是因?yàn)樗С至艘恍┬碌漠a(chǎn)品甚至新的產(chǎn)業(yè)，這才是它真正的價(jià)值?！?/p>

張家興表示，中國(guó)不缺乏做產(chǎn)品創(chuàng)新的人，但現(xiàn)在缺少AIGC底層能力的提供者?！昂Ｍ獗热鏞pen AI和Stability AI兩家公司，對(duì)整個(gè)AIGC產(chǎn)業(yè)提供基礎(chǔ)設(shè)施。國(guó)內(nèi)這方面目前比較欠缺，至今沒(méi)有這樣的一個(gè)商業(yè)公司出現(xiàn)。”

“這就造成一個(gè)問(wèn)題，每個(gè)想做AIGC的公司從模型到產(chǎn)品都要考慮在內(nèi)，但前期的資源往往有限，可能更多為了保證產(chǎn)品效果，在底層模型研發(fā)上投入不了那么多的精力，也不可能投入像Open AI和Stability AI那么大的資源，基本上是對(duì)模型進(jìn)行一些微調(diào)，然后就上線了，這樣其實(shí)會(huì)存在大量問(wèn)題?！睆埣遗d表示。

張家興透露，目前部分推出AIGC產(chǎn)品的公司已經(jīng)大體實(shí)現(xiàn)收支平衡，頭部產(chǎn)品已經(jīng)有很大的用戶體量和日調(diào)用量?！暗鋵?shí)還需要有更多AIGC的產(chǎn)品和落地場(chǎng)景出現(xiàn)，包括一些傳統(tǒng)場(chǎng)景，比如圖片搜索和圖庫(kù)，值得全部做一次升級(jí)?！?/p>

至于眼前的機(jī)會(huì)，張家興表示，明年最值得期待的是視頻和3D功能突破?！澳壳皟煞矫孢€處于初級(jí)階段，類似于兩年前的圖像生成。而人工視頻的制作成本要比圖片成本高，但對(duì)于AI來(lái)說(shuō)區(qū)別不大，如果有AIGC技術(shù)在這些方面大幅度應(yīng)用的話，會(huì)產(chǎn)生更大的商業(yè)價(jià)值。”

（記者：崔銘）（編輯：劉琰）