①硅基智能AI數(shù)字人技術(shù)通過復(fù)刻頂尖名師,實現(xiàn)全民皆可享受名師面對面、一對一教學(xué),真正讓教育普惠。 ②2024年成為第一家收入達(dá)到100億的AI創(chuàng)業(yè)公司,2025年實現(xiàn)利潤達(dá)到100億的AI頭部企業(yè)。
財聯(lián)社8月25日訊(記者 劉淮西) 一排排手機上全是數(shù)字人直播帶貨,這樣的場景在今年愈發(fā)多見。數(shù)字人代替真人儼然成為了直播電商的新趨勢。
據(jù)《中國AI數(shù)字人市場現(xiàn)狀與機會分析2022》報告預(yù)計,到2023年中國AI數(shù)字人市場規(guī)模將達(dá)102.4億元。
本期《元宇宙之約》我們對話了硅基智能創(chuàng)始人兼CEO司馬華鵬。硅基智能作為數(shù)字人賽道的引領(lǐng)者,在司馬華鵬的帶領(lǐng)下打造了一系列的理論體系和行動計劃,用他自己的話說“我們不追風(fēng)口,我們造風(fēng)口”。
他把數(shù)字人稱為硅基勞動力,是“硅基生命”的一種形態(tài),有別于人類的“碳基生命”。硅基智能計劃2025年為全球打造1億硅基勞動力,司馬華鵬還提出人工智能倡導(dǎo)“科技平權(quán)”,硅基勞動力將引領(lǐng)服務(wù)、教育、醫(yī)療等各領(lǐng)域的平權(quán)。
“我們有大量的數(shù)字虛擬人形象,比如數(shù)字教師就可用于教育平權(quán)……硅基智能AI數(shù)字人技術(shù)通過復(fù)刻頂尖名師,實現(xiàn)全民皆可享受名師面對面、一對一教學(xué),真正讓教育普惠?!?/p>
行動方面,今年5月份,硅基智能發(fā)布了“炎帝大模型”,可以自動生成短視頻、數(shù)字人直播、數(shù)字永生、數(shù)字文娛等方面內(nèi)容?;贏ICG技術(shù),硅基智能和薇婭旗下的謙尋控股合資成立了謙語智能,主打電商領(lǐng)域的數(shù)字人直播帶貨。
司馬華鵬還為硅基智能立下了兩大目標(biāo):2024年成為第一家收入達(dá)到100億的AI創(chuàng)業(yè)公司,2025年實現(xiàn)利潤達(dá)到100億的AI頭部企業(yè)。
目前來看,司馬華鵬的理論體系和行動計劃是成功的。2017年成立至今,硅基智能已經(jīng)獲得騰訊、招銀國際、國新央企、松海資本、紅杉資本、奇虎中財?shù)?輪融資,估值近10億美元;同時擁有80余項授權(quán)專利,公司的數(shù)字人直播已達(dá)到每日5萬場的常態(tài)化規(guī)模。
雖然在直播領(lǐng)域做的風(fēng)生水起,但司馬華鵬卻表示,直播帶貨并非數(shù)字人的最終應(yīng)用場景;硅基智能的數(shù)字人的最終目標(biāo)場景是在影視行業(yè),未來將運用AIGC數(shù)字人技術(shù),將一部部小說搬上熒屏,可以理解為用AIGC生成電影;在數(shù)字永生方面,未來也會是很大的市場。
以下為對話內(nèi)容:
2025年為全球提供1億硅基勞動力
你多次提到數(shù)字人是硅基生命,該如何理解硅基生命?
司馬華鵬:硅基勞動力就是硅基生命的一種形態(tài),它們開源開放、集體進步、沒有情緒,可以快速復(fù)制,近乎無限供給,一定會成為人類數(shù)字化生存與發(fā)展的重要支撐力。
硅基生命、硅基勞動力、硅基文明背后有很多核心要素。碳基生命以DNA編碼,爭奪的核心資源是石油、糧食、土地。而硅基生命以文本編碼,以算力、財力、電力為核心的新生命形態(tài)。硅基智能的使命是通過AI技術(shù)和產(chǎn)品創(chuàng)新,使人工智能成為日常生活的一部分,推動時代進步,幫助人類解決實際問題。
你提出“造出1億硅基勞動力為人類服務(wù)”,這個1億是如何定量的?目前的數(shù)量是多少?如何保證完成這個目標(biāo)?
司馬華鵬:1億是我們給自己定下的目標(biāo),在過去5年多的AI商業(yè)化落地探索中,硅基智能已經(jīng)創(chuàng)造了百萬“硅基勞動力”,投入服務(wù)了十多個行業(yè),上萬家企業(yè)。我們在今年1月通過了中國信通院47項基礎(chǔ)能力評測,是擁有權(quán)威認(rèn)證的數(shù)字人廠商之一。今年3月份,硅基數(shù)字人成為國內(nèi)首個入駐抖音“群峰服務(wù)市場”的數(shù)字人產(chǎn)品,在抖音的官方后臺就能選擇我們的數(shù)字人服務(wù)。4月份抖音官方的直播間也在使用我們的AI數(shù)字人產(chǎn)品,這些都是市場和客戶篩選之后的選擇。
目前我們的產(chǎn)品已經(jīng)有成熟且廣泛的商業(yè)化場景落地,服務(wù)了包括工商銀行、中國銀行等多家大型金融機構(gòu),移動、電信、聯(lián)通三大運營商,以及華為云平臺、江蘇廣電等數(shù)字產(chǎn)業(yè)ToB\ToG 的生態(tài)伙伴。
接下來我們擴展市場的速度也會加快,尤其在發(fā)布了炎帝大模型后,這個1億硅基勞動力的目標(biāo)進程也將縮短。
之前你的創(chuàng)業(yè)主要是在安全領(lǐng)域,是如何發(fā)現(xiàn)數(shù)字人這個商業(yè)賽道的?
司馬華鵬:在我們創(chuàng)業(yè)初期,一位聯(lián)合創(chuàng)始人經(jīng)歷了母親的離世,他母親不會打字,但在微信上留下了很多語音、照片和視頻,他問我有沒有辦法把他母親克隆出來,還想再見到母親的音容笑貌。這讓我下定決心要想辦法來完成他的心愿,萌發(fā)了朝數(shù)字人方向創(chuàng)業(yè)的想法。這就是硅基智能做數(shù)字人的起源。
有了這次經(jīng)歷,我們深感人類的壽命都是有限的,但克隆出來的硅基生命是無限的,能無限的去傳遞思想和知識,這就更加堅定了我們的創(chuàng)業(yè)之路,開辟了數(shù)字人的新賽道。
硅基智能提出了很多形而上的名詞,比如“科技平權(quán)”等,為何要把創(chuàng)業(yè)上升到哲學(xué)理論的高度?
司馬華鵬:在工業(yè)革命的上半場,是通過科技帶動機器生產(chǎn),進而不斷發(fā)展生產(chǎn)力,這樣一來普通人也可以接觸到、購買到過去貴族專用的各種商品了。
從這個角度說來,我們現(xiàn)在就處于下半場,比如很常見的服務(wù)平權(quán),很多行業(yè)目前還很難實現(xiàn)。我們始終堅信,科技平權(quán)是人類文明發(fā)展中很重要的一個訴求,所以一直致力于科技平權(quán)下的知識平權(quán)。
我們有大量的數(shù)字人形象,比如數(shù)字教師就可用于教育平權(quán),教育資源普遍存在分配不均的情況,頂尖名師和優(yōu)質(zhì)教育資源往往只能服務(wù)于社會極少部分人群,不同城市之間,不同階層間教育資源嚴(yán)重不均。硅基智能通過AIGC數(shù)字人技術(shù)復(fù)刻頂尖名師,實現(xiàn)全民皆可享受名師面對面、一對一教學(xué),真正讓教育普惠。
再比如數(shù)字醫(yī)生可用于醫(yī)療平權(quán),我國優(yōu)質(zhì)醫(yī)生資源集中于大城市、大醫(yī)院,邊遠(yuǎn)基層地區(qū)的名醫(yī)資源不足。硅基智能將名醫(yī)數(shù)字化、先進醫(yī)療知識數(shù)字化,在醫(yī)療知識普及、遠(yuǎn)程問診、虛擬私人醫(yī)生等領(lǐng)域產(chǎn)生積極影響,促進各區(qū)域各級醫(yī)療機構(gòu)同質(zhì)化水平的不斷提升,讓優(yōu)質(zhì)醫(yī)療惠及百姓。
直播帶貨并非數(shù)字人最終落地應(yīng)用
今年數(shù)字人直播帶貨為什么能夠火爆?它會是一個終極的商業(yè)模式嗎?
司馬華鵬:數(shù)字人直播能夠火爆的根本原因在于,AI數(shù)字人已經(jīng)有能力為直播行業(yè)帶來90%以上的降本增效,省去了拍攝和剪輯,無需服裝、道具、燈光等設(shè)備,實現(xiàn)直播全流程自動化。同時大大降低了人力成本,也不用再擔(dān)心主播流動率高,不穩(wěn)定了,數(shù)字人主播不會疲倦,可以超長時間連續(xù)直播,也不存在離職風(fēng)險。
在炎帝大模型的加持下,硅基智能的AIGC數(shù)字人技術(shù)已經(jīng)完成更新迭代,研發(fā)出支持電商直播的數(shù)字人,這些數(shù)字人可以根據(jù)腳本調(diào)整情緒,可以根據(jù)現(xiàn)場情況調(diào)整策略,目前硅基智能已經(jīng)達(dá)到了日常直播5萬場的常態(tài)化狀態(tài),到2025年我們的目標(biāo)是為全球提供1億硅基勞動力。
在當(dāng)下直播是最能體現(xiàn)硅基勞動力價值的應(yīng)用場景之一,但遠(yuǎn)非數(shù)字人產(chǎn)品商業(yè)落地的終點。我們已經(jīng)跟40多個行業(yè)幾萬家企業(yè)合作,在各個領(lǐng)域已經(jīng)有非常成熟的應(yīng)用場景,比如直播帶貨、知識創(chuàng)作、金融服務(wù)、鄉(xiāng)村振興、本地生活直播、電商直播、短視頻生成,接下來還會大力布局電影電視劇領(lǐng)域,做更多內(nèi)容生成和數(shù)字永生的相關(guān)業(yè)務(wù)。
在未來,數(shù)字人心理咨詢師、數(shù)字人醫(yī)生、數(shù)字人老年陪伴官、數(shù)字演員等許許多多的職業(yè)場景都在等待數(shù)字人勞動力去填補,幾乎所有的商業(yè)場景都將可能被顛覆。
剛開始你們?nèi)绾瓮卣箶?shù)字人直播的客戶,如何讓大家普遍接受這種虛擬形象?
司馬華鵬:最開始非常艱難,我們把各行業(yè)所有大V聯(lián)系了一遍,免費給他們做數(shù)字分身,但吃了非常多的閉門羹。但現(xiàn)在很多大V回頭來找我們,這說明數(shù)字人這個新東西從出生到今天終于被大家接受認(rèn)可了。
整個過程有三個時間節(jié)點。第一個節(jié)點就是2022年10月底,劉潤的年度演講《進化的力量》,重磅推薦了我們的數(shù)字人,他表示這項技術(shù)在未來會很有價值,并且大方的分享他自己的短視頻口播內(nèi)容已經(jīng)“不是本人”。
第二個節(jié)點就是,疫情放開后抖音在今年年初開放了本地生活中的數(shù)字人直播,這就給整個行業(yè)撕開了一道口子。
第三個節(jié)點就是ChatGPT的火爆,讓大家意識到大模型時代的到來,使得整個AI被大家所信任。
除了直播帶貨外,公司在其他數(shù)字人應(yīng)用場景上做了哪些準(zhǔn)備?
司馬華鵬:研發(fā)方面,實際上我們有兩個團隊,分別做3D虛擬形象和2D超寫實數(shù)字人,我們也有自己的3D虛擬偶像,叫愛夏。但是3D虛擬形象制作成本十分昂貴,幾十萬甚至上百萬做一個。
在創(chuàng)業(yè)過程中,我們發(fā)現(xiàn)隨著數(shù)據(jù)積累越多,2D超寫實數(shù)字人的制作成本和時間逐步下降,原先我們克隆一個數(shù)字人需要30分鐘,后來降到10分鐘,又降到5分鐘、1分鐘,甚至現(xiàn)在我們有一張照片就可以很快把形象克隆出來。成本下降也非常厲害,現(xiàn)在我們克隆一個數(shù)字人已經(jīng)降到幾千塊錢,把你的聲音和形象數(shù)據(jù)發(fā)給我們就可以了。這其實是一個老百姓能接受的價格和時間。所以2D超寫實數(shù)字人是我們率先發(fā)力的點,比如推廣到直播帶貨行業(yè)等。
業(yè)務(wù)方面,我們有四個方向,分別是知識生產(chǎn)、電商直播、數(shù)字永生和數(shù)字文娛。
數(shù)字文娛方向,我們現(xiàn)在在用AI拍短劇、拍電影,我們還和另外一個公司合作做明星偶像的數(shù)字分身,比如王一博的數(shù)字分身,可以和粉絲之間建立起智能情感連接。
數(shù)字孿生方向,全國去年大概接近1000萬人去世,很多家屬都希望保留他們的數(shù)字形象,可以跟后代繼續(xù)保持情感連接。數(shù)字孿生業(yè)務(wù)我們還在等待一個爆點,比如我們可以免費幫失獨家庭克隆他們小孩的數(shù)字分身,比如我們把抗戰(zhàn)老英雄的數(shù)字分身克隆出來,有很多類似的點都可能會引爆行業(yè)。
從商業(yè)角度來說,數(shù)字孿生業(yè)務(wù)的成本還很高,克隆成本沒達(dá)到老百姓的市場接受價格,所以還需等待時日。
兩個百億目標(biāo)
請介紹一下炎帝大模型,它和其他大模型主要區(qū)別在哪里?
司馬華鵬:不同于傳統(tǒng)的ChatGPT類通用大模型,炎帝大模型是一個多模態(tài)的行業(yè)腦。 我們核心的賽道是NLP,跟ChatGPT在一個賽道里面。我們在NLP的核心能力上,在知識的表達(dá)層,在這一層我們是領(lǐng)跑者,而ChatGPT在知識的創(chuàng)作和推理上是領(lǐng)跑者。打一個很好的比喻,ChatGPT是莫言,能寫小說,炎帝大模型是姜文、鞏俐,能表演。
每個行業(yè)都需要擁有自己的大模型,而大模型的發(fā)展趨勢正朝著行業(yè)腦、多模態(tài)和中交互的方向發(fā)展。
傳統(tǒng)大模型是基于公有領(lǐng)域的知識進行訓(xùn)練,行業(yè)腦則是基于特定行業(yè)的私有領(lǐng)域知識訓(xùn)練。事實上,通用大模型的競爭早已結(jié)束,現(xiàn)已進入了行業(yè)大模型競爭的階段。
多模態(tài)是指大模型同時兼?zhèn)渖啥喾N內(nèi)容形式的能力,包括文本生成、聲音生成、圖像/視頻生成。用戶只需告訴炎帝大模型直播間的要求,一個數(shù)字人的直播間就能迅速搭建完成。主播、中控和運營的角色都由AI扮演,并且可以自動獲取競爭對手直播間內(nèi)的信息。當(dāng)直播間觀眾數(shù)量下降時,數(shù)字人將執(zhí)行各種選擇器、任務(wù)器和反饋器的任務(wù),數(shù)字人主播對應(yīng)生成一系列響應(yīng),比如生成降價促銷的直播話術(shù)等。
中交互是指一對多的交互方式,與資源密集型的一對一強交互和短視頻的弱交互不同;一對多的中交互生成的內(nèi)容被越多的用戶消費時,總體成本并沒有變化,但交互所帶來的產(chǎn)出更高,整體效率即大大的被提升。
你們和謙尋控股合作成立合資公司,分別占股多少?雙方為何要合作?
司馬華鵬:杭州謙語智能科技有限公司,硅基智能和謙尋控股各占股50%,我們出AIGC技術(shù),他們出運營能力,希望一起把數(shù)字人直播帶貨做大做強。
做好數(shù)字人直播帶貨要有六個構(gòu)成要素:技術(shù)、運營、供應(yīng)鏈、IP、金融和賬號。我們現(xiàn)在是每個要素上都在找盟友,謙尋控股是我們十分優(yōu)秀的合作方之一。
打個比方,我們是技術(shù)能力強,能造車,但是你要開好車需要去駕校培訓(xùn),你想跑出租需要找到滴滴這樣的公司。
目前硅基智能處于什么發(fā)展階段,有多少員工?營收情況如何?
司馬華鵬:目前我們員工有500人左右。我們除了是一個AI科技公司外,也有100多個銷售,有300到500家代理商,希望在數(shù)字人商業(yè)模式爆發(fā)的時候,能夠迅速承接市場需求。
公司目前營收數(shù)據(jù)不方便對外透露,但我為硅基智能立下了兩大目標(biāo):2024年成為第一家收入達(dá)到100億的AI創(chuàng)業(yè)公司,2025年實現(xiàn)利潤達(dá)到100億的AI頭部企業(yè)。