受海外Stability AI公司開源Stable Diffusion模型啟發(fā),CCNL于今年11月1日正式開源了自主研發(fā)的首個中文Stable Diffusion模型“太乙”,將AI繪畫底層模型帶入中文語境。
《安安訪談錄》是界面財聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談類欄目。從投資角度對話1000位行業(yè)領(lǐng)軍人物,覆蓋傳媒創(chuàng)新、VC/PE、信息服務(wù)、金融科技、交易體系、戰(zhàn)略新興等方向。
《財專訪》是由《安安訪談錄》出品的系列專訪,財聯(lián)社上市公司報道部聚焦行業(yè)熱點,通過專訪各類專家、領(lǐng)軍人物,致力尋找投資價值標(biāo)的,還原行業(yè)發(fā)展邏輯。
本期訪談人物:
IDEA研究院講席科學(xué)家 張家興
“中文世界需要有中國文化內(nèi)核的AIGC模型,行業(yè)發(fā)展還需要有更多的AIGC產(chǎn)品創(chuàng)新出現(xiàn),傳統(tǒng)產(chǎn)品都值得用AIGC做一次升級。”
▍個人介紹
現(xiàn)任IDEA研究院講席科學(xué)家,認(rèn)知計算與自然語言研究中心負(fù)責(zé)人;曾任微軟亞洲研究院研究員、螞蟻金服資深算法專家、360數(shù)科首席科學(xué)家。
▍第一標(biāo)簽
AIGC底層技術(shù)研究和實踐的領(lǐng)軍者
▍組織簡介
粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(International Digital Economy Academy,簡稱“IDEA研究院”)成立于2020年,目前已聚集包括院士、世界著名大學(xué)教授、世界知名開源系統(tǒng)發(fā)明人在內(nèi)的國際一流技術(shù)專家,致力于在AI基礎(chǔ)技術(shù)與開源系統(tǒng)、人工智能金融科技、區(qū)塊鏈技術(shù)與機(jī)密計算、企業(yè)級AI系統(tǒng)、產(chǎn)業(yè)智能物聯(lián)網(wǎng)與智能機(jī)器人等領(lǐng)域研發(fā)國際頂尖成果,并培育一批國際領(lǐng)先科技企業(yè),帶動深圳乃至大灣區(qū)萬億級數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展。
IDEA研究院認(rèn)知計算與自然語言研究中心(Cognitive Computing and Natural Language,CCNL)致力于推動預(yù)訓(xùn)練大模型為代表的新一代認(rèn)知與自然語言基礎(chǔ)前沿技術(shù)的進(jìn)一步發(fā)展,力圖解決大模型實際落地過程中的全部技術(shù)問題,構(gòu)建對話機(jī)器人、知識抽取、知識體系等自然語言領(lǐng)域的新的技術(shù)架構(gòu),打造認(rèn)知人工智能的新技術(shù)范式。
AIGC正成為繼PGC和UGC之后的全新內(nèi)容創(chuàng)作模式,底層模型能力突破帶來的行業(yè)應(yīng)用潛力初現(xiàn)。在AI繪畫這一技術(shù)應(yīng)用分支,受海外Stability AI公司開源Stable Diffusion模型推動,行業(yè)準(zhǔn)入門檻大幅降低,AI繪畫的產(chǎn)業(yè)化和商業(yè)化進(jìn)程加速。
由此可見,在AIGC行業(yè)發(fā)展初期,底層模型的迭代、開源將成為重要的核心推動力。基于此,CCNL于今年11月1日正式開源了自主研發(fā)的首個中文Stable Diffusion模型“太乙”,旨在更好地助力中國AIGC文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新發(fā)展。
IDEA研究院講席科學(xué)家張家興在接受財聯(lián)社記者專訪時表示,中國并不缺乏產(chǎn)品創(chuàng)新者,當(dāng)下欠缺的是AIGC底層能力的提供者?!拔覀儓F(tuán)隊希望在中國的AIGC產(chǎn)業(yè)里,承擔(dān)Open AI跟Stability AI這樣的角色,不斷迭代底層模型能力,助力上層出現(xiàn)更多的產(chǎn)品創(chuàng)新,服務(wù)于更廣泛的用戶。”
01
——————————
AIGC模型也需要有中國文化內(nèi)核
受海外Stability AI公司開源Stable Diffusion模型啟發(fā),CCNL于今年11月1日正式開源了自主研發(fā)的首個中文Stable Diffusion模型“太乙”,將AI繪畫底層模型帶入中文語境。
之所以選擇推出“太乙”,張家興表示,一方面因為英文模型會產(chǎn)生翻譯損耗、難以生成具有中國文化內(nèi)核的圖片。另一方面Stable Diffusion模型已經(jīng)在英文世界中證明了自己的價值,即極大降低了AIGC行業(yè)門檻,中文世界同樣需要一個“原汁原味”的Stable Diffusion模型去推動整個產(chǎn)業(yè)發(fā)展。
對于AI來說,“投喂”什么樣的數(shù)據(jù)會直接決定學(xué)習(xí)結(jié)果。例如,在英文Stable Diffusion模型中輸入“宮殿”關(guān)鍵詞,由于系統(tǒng)默認(rèn)為英文思維,故輸出的也是西方類型的各式宮殿圖片。而在“太乙”中輸入“宮殿”,生成的則是具有中國特色的宮殿建筑。輸入人像、古詩類描述詞也是同樣的道理。
張家興透露,“太乙”的訓(xùn)練數(shù)據(jù)量超過了1億對的中文的圖文對。“我們已經(jīng)把整個團(tuán)隊都投入進(jìn)去了,幾十個成員基本都是在圍繞著AIGC模型研究實踐,也希望做一些更貼近下游應(yīng)用的AIGC模型?!?/p>
實際上,目前Stable Diffusion模型技術(shù)并不完美。一個最明顯的不足點是,當(dāng)圖片為照片風(fēng)格時,人臉生成和人手的生成質(zhì)量較差。為此,“太乙”加入了圖像編輯功能,用戶可以對一張圖片的人臉部分進(jìn)行單獨修復(fù),這是原版Stable Diffusion模型無法支持的。
02
——————————
“太乙”只是第一步,生態(tài)合作是關(guān)鍵
在整個AIGC行業(yè),“太乙”作為底層模型,為應(yīng)用層提供技術(shù)支撐。張家興表示,推出“太乙”只是CCNL在AIGC方向上走出的第一步,后續(xù)團(tuán)隊將從三個層面持續(xù)發(fā)力。
一是不斷進(jìn)行模型迭代,對模型結(jié)構(gòu)進(jìn)行創(chuàng)新、構(gòu)建質(zhì)量越來越高的數(shù)據(jù)集等,完善最基礎(chǔ)最底層的AIGC模型。目前CCNL已經(jīng)開源了88個預(yù)訓(xùn)練模型,整體稱為“封神榜”是目前中國最大的預(yù)訓(xùn)練模型開源體系。
二是推出針對特定領(lǐng)域的AIGC模型,例如二次元、科幻、游戲等領(lǐng)域。張家興認(rèn)為,一個通用的AIGC模型很難在所有領(lǐng)域上都表現(xiàn)出色,而與各垂直行業(yè)業(yè)內(nèi)公司合作,有助于一同推出更多精準(zhǔn)的模型工具。
三是通過API(Application Program Interface,應(yīng)用程序界面)將模型接入更多的業(yè)務(wù)場景。“太乙”團(tuán)隊目前已經(jīng)推出了API功能,免費提供給用戶,每人每天有1萬的調(diào)用額度?!斑@足以支持一個小團(tuán)隊前期去做產(chǎn)品創(chuàng)新,在特定領(lǐng)域面向特定用戶的公司,往往有自己獨特的經(jīng)驗和產(chǎn)品上的想法。這個時候可以直接調(diào)用我們的API構(gòu)建產(chǎn)品,如果后期試驗的比較成功了,我們可以再進(jìn)一步探討如何做一些針對產(chǎn)品的定制化的模型?!睆埣遗d表示。
當(dāng)前階段,“太乙”已經(jīng)在推進(jìn)一些生態(tài)合作,對象主要瞄準(zhǔn)在數(shù)據(jù)和場景上有優(yōu)勢的公司,CCNL提供模型技術(shù)支持,對方公司則專注于產(chǎn)品運營,雙方形成優(yōu)勢互補關(guān)系。
“一種是對方的產(chǎn)品已經(jīng)跑在前面了,但急需技術(shù)升級,以及更好的 AIGC模型內(nèi)核。另一種是對方本身有很強的數(shù)據(jù)圖像方面的優(yōu)勢,通過‘太乙’技術(shù)賦予數(shù)據(jù)新的價值。因為有的數(shù)據(jù)是有版權(quán)的,有一定獲取成本,現(xiàn)在用AIGC的方式給業(yè)務(wù)數(shù)據(jù)再進(jìn)行一次大規(guī)模的擴(kuò)充,這樣他們就有了更多自有版權(quán)了,并且基本是零成本?!睆埣遗d表示。
張家興透露,目前團(tuán)隊也在跟一些在圖片數(shù)據(jù)上非常有優(yōu)勢的頭部公司商議,推出一些商業(yè)版的模型,能夠生成更高分辨率更高清晰度更寫真的照片。
03
——————————
中國AIGC產(chǎn)業(yè)的瓶頸和機(jī)會
AIGC被業(yè)界廣泛視為解放未來生產(chǎn)力的工具,與“降本增效”緊密掛鉤。在張家興看來,AIGC改變的更多是生產(chǎn)方式?!艾F(xiàn)在AI生成一張圖片基本上1秒鐘就夠了,就算需要人工篩選也只需要幾分鐘。但過去如果是純?nèi)斯ど桑赡芤蕴鞛榛鶖?shù)?!痹贏I的加持下,人在創(chuàng)作過程中更多是提供創(chuàng)意,以及篩選和挑選,顛覆了以往的生產(chǎn)方式。
張家興認(rèn)為,“降本增效”并不是AIGC真正的潛力?!敖当驹鲂е皇侨魏我粋€技術(shù)剛出來時,大家都會關(guān)注的點。但時間久了,讓這個技術(shù)真正被大家廣泛使用,成為社會底層的支撐性技術(shù),都是因為它支持了一些新的產(chǎn)品甚至新的產(chǎn)業(yè),這才是它真正的價值?!?/p>
張家興表示,中國不缺乏做產(chǎn)品創(chuàng)新的人,但現(xiàn)在缺少AIGC底層能力的提供者?!昂M獗热鏞pen AI和Stability AI兩家公司,對整個AIGC產(chǎn)業(yè)提供基礎(chǔ)設(shè)施。國內(nèi)這方面目前比較欠缺,至今沒有這樣的一個商業(yè)公司出現(xiàn)。”
“這就造成一個問題,每個想做AIGC的公司從模型到產(chǎn)品都要考慮在內(nèi),但前期的資源往往有限,可能更多為了保證產(chǎn)品效果,在底層模型研發(fā)上投入不了那么多的精力,也不可能投入像Open AI和Stability AI那么大的資源,基本上是對模型進(jìn)行一些微調(diào),然后就上線了,這樣其實會存在大量問題?!睆埣遗d表示。
張家興透露,目前部分推出AIGC產(chǎn)品的公司已經(jīng)大體實現(xiàn)收支平衡,頭部產(chǎn)品已經(jīng)有很大的用戶體量和日調(diào)用量。“但其實還需要有更多AIGC的產(chǎn)品和落地場景出現(xiàn),包括一些傳統(tǒng)場景,比如圖片搜索和圖庫,值得全部做一次升級?!?/p>
至于眼前的機(jī)會,張家興表示,明年最值得期待的是視頻和3D功能突破。“目前兩方面還處于初級階段,類似于兩年前的圖像生成。而人工視頻的制作成本要比圖片成本高,但對于AI來說區(qū)別不大,如果有AIGC技術(shù)在這些方面大幅度應(yīng)用的話,會產(chǎn)生更大的商業(yè)價值?!?/p>
(記者:崔銘) (編輯:劉琰)
對話1000位行業(yè)領(lǐng)軍人物:安安訪談錄