截至目前,思必馳擁有近100項全球獨創(chuàng)技術(shù),已授權(quán)知識產(chǎn)權(quán)近1400件,其中已授權(quán)專利近700項,軟件著作權(quán)近400項,牽頭/參與了近50項國家/團體標(biāo)準(zhǔn)。
《安安訪談錄》是界面財聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談類欄目。從投資角度對話1000位行業(yè)領(lǐng)軍人物,覆蓋傳媒創(chuàng)新、VC/PE、信息服務(wù)、金融科技、交易體系、戰(zhàn)略新興等方向。
《財專訪》是由《安安訪談錄》出品的系列專訪,財聯(lián)社上市公司報道部聚焦行業(yè)熱點,通過專訪各類專家、領(lǐng)軍人物,致力尋找投資價值標(biāo)的,還原行業(yè)發(fā)展邏輯。
本期訪談人物:
思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家 俞凱
“GPT是人工智能發(fā)展的一個集中式突破,包括對話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力以及大數(shù)據(jù)的整體突破?!?/p>
▍個人介紹
思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家、上海交通大學(xué)教授。
清華大學(xué)本科、碩士,劍橋大學(xué)博士。
入選國家級重大人才工程,上海市“東方學(xué)者”特聘教授。
IEEE Speech and Language Processing Technical Committee 委員(2017-2019),中國計算機學(xué)會語音對話及聽覺專委會副主任,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識產(chǎn)權(quán)組組長。世界頂尖科學(xué)家論壇(World Laureates Forum)青年科學(xué)家委員會委員,全國信標(biāo)委用戶界面分委會委員。
發(fā)表200余篇國際論文,獲得多個國際研究挑戰(zhàn)賽冠軍,擔(dān)任Inter Speech、ICMI等國際會議程序委員會主席和ACL、NAACL、EMNLP等國際會議對話交互領(lǐng)域主席。
曾獲中國人工智能學(xué)會吳文俊人工智能科學(xué)進(jìn)步獎、中國計算機學(xué)會青竹獎、2016年《科學(xué)中國人》年度人物。
▍第一標(biāo)簽
引領(lǐng)人工智能領(lǐng)域發(fā)展的長期主義者
▍公司簡介
思必馳基于自主研發(fā)的全鏈路智能對話系統(tǒng)定制開發(fā)平臺和人工智能語音芯片,圍繞“云+芯”進(jìn)行布局,提供軟硬件結(jié)合的人工智能技術(shù)與產(chǎn)品服務(wù),在智能家電、智能汽車、消費電子等物聯(lián)網(wǎng)領(lǐng)域以及數(shù)字政企領(lǐng)域,提供智能人機交互軟件產(chǎn)品、軟硬一體化人工智能產(chǎn)品以及對話式人工智能技術(shù)服務(wù)。截至目前,思必馳擁有近100項全球獨創(chuàng)技術(shù),已授權(quán)知識產(chǎn)權(quán)近1400件,其中已授權(quán)專利近700項,軟件著作權(quán)近400項,牽頭/參與了近50項國家/團體標(biāo)準(zhǔn)。
2022年11月30日上線的人工智能聊天機器人模型ChatGPT近期火爆全球,僅僅2個月即實現(xiàn)月活破億。伴隨著ChatGPT的出圈,不僅海外科技巨頭微軟、谷歌打響AI搜索大戰(zhàn),國內(nèi)包括百度、阿里、騰訊、華為、京東、網(wǎng)易有道等大廠在內(nèi)的諸多科技公司均已披露相關(guān)方向的研發(fā)進(jìn)展。
國內(nèi)專業(yè)對話式人工智能平臺型企業(yè)思必馳已掌握全鏈路語音及語言交互技術(shù),涵蓋語音信號處理、識別、合成、語言理解、問答聊天、知識圖譜等人機信息交互閉環(huán)涉及的各個模塊級技術(shù),能夠感知用戶意圖和情感,并基于用戶畫像實現(xiàn)擬人化的語言風(fēng)格互動。
日前思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱接受了記者專訪,就思必馳在類ChatGPT對話機器人方面的研發(fā)進(jìn)展、ChatGPT問世對于行業(yè)的意義、海內(nèi)外玩家差距、生成式AI面臨的挑戰(zhàn)等話題進(jìn)行分享。
01
——————————
思必馳的語音和語義通用基礎(chǔ)模型已達(dá)到億級參數(shù)
Q:在類ChatGPT的對話機器人研發(fā)方面,公司目前有何進(jìn)展?
俞凱:在技術(shù)的迭代發(fā)展上,ChatGPT本質(zhì)就是一個統(tǒng)計類的深度學(xué)習(xí)對話通用大模型。
思必馳應(yīng)該算是國內(nèi)最早一批去進(jìn)行統(tǒng)計類對話模型的產(chǎn)業(yè)化研究的公司之一,并且在任務(wù)型對話上也取得了很多很好的研究成績和應(yīng)用成績。思必馳已有的語音和語義的通用基礎(chǔ)模型,已經(jīng)達(dá)到億級參數(shù)。
在通用基礎(chǔ)模型技術(shù)方面,目前思必馳使用千塊GPU卡量級的超算資源,正在整合擴展資源,在已有算法研究和數(shù)據(jù)積累的基礎(chǔ)上,將億級參數(shù)模型擴展到百億以上量級。
Q:在類ChatGPT的對話機器人研發(fā)方面,公司未來有何計劃?
俞凱:現(xiàn)在的ChatGPT還是以文本機器人的形式來出現(xiàn),我相信這只是一個開始,未來一定會往語音對話機器人去進(jìn)階,會逐漸強化對語音和文本的深度融合。在聽覺感知技術(shù)方面,思必馳能夠?qū)崿F(xiàn)高精度的語音轉(zhuǎn)文字和高質(zhì)量的聲音播報效果;能夠解決在人機交互過程中面臨的遠(yuǎn)距離、復(fù)雜聲場的多噪音干擾、多說話人判斷;滿足用戶對方言、外語的識別及合成的需求。
在聊天機器人方向,融合語音、文本、圖像信號的多模態(tài)交互技術(shù)也有很大機會。以當(dāng)前新起的虛擬數(shù)字人為例,多模態(tài)、智能化的完整解決方案可以更好地應(yīng)對不同場景的復(fù)雜變化,多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢。在多模態(tài)及交互技術(shù)方向,思必馳公司在業(yè)界率先發(fā)布了全雙工對話架構(gòu),形成了獨特的閉環(huán)人機對話系統(tǒng)構(gòu)建的底層綜合技術(shù)優(yōu)勢,與國際主流先進(jìn)技術(shù)相比,取得聲紋驗證、語音分離等指標(biāo)的顯著提升。
02
——————————
ChatGPT是繼Alpha Go之后最大的里程碑進(jìn)步
Q:您怎么看此次ChatGPT火出圈?可能存在哪些原因?
俞凱:ChatGPT可以算是繼Alpha Go之后最大的一個里程碑進(jìn)步。Alpha Go解決的是確定規(guī)則情況下的搜索和處理,而GPT在無確定語法規(guī)則前提下,部分解決了自然語言交互的問題。我們并不能把GPT簡單理解為某一個特定單點技術(shù)的突破,而是人工智能發(fā)展的一個集中式突破,包括其中的對話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力以及大數(shù)據(jù)的整體突破。
ChatGPT爆火還有個原因,即產(chǎn)業(yè)應(yīng)用的需求對技術(shù)的召喚得到了回應(yīng)。各種智能硬件發(fā)展到現(xiàn)在,功能上逐漸愈發(fā)同質(zhì)化,體驗上也很難做出自己的特色。ChatGPT的創(chuàng)作能力則滿足了產(chǎn)業(yè)應(yīng)用級的需求,打開了新的空間。
Q:據(jù)路透社記者統(tǒng)計,AI、生成式 AI、機器學(xué)習(xí)等詞出現(xiàn)在美國科技巨頭最新季財報會議中的頻率是上一季度的2-6倍。巨頭紛紛發(fā)力生成式 AI,您認(rèn)為有哪些原因?
俞凱:本質(zhì)上,是因為生成式AI在落地應(yīng)用后,更能達(dá)成用戶對“智能人機交互體驗”需求的滿足程度。生成式AI更強調(diào)學(xué)習(xí)、歸納后的創(chuàng)造、推理,生成式AI的創(chuàng)作能力則是以內(nèi)容創(chuàng)作為主,用來輔助人類決策。用戶對“輔助”的標(biāo)準(zhǔn)會低一些、寬容度會高一些、安全性和準(zhǔn)確性的期望值也會低一些,更容易引起大家的關(guān)注和期待。
其次,生成式AI有“創(chuàng)作性”的天然屬性:即沒有絕對的正確錯誤之分,甚至有些仁者見仁、智者見智的意味。決策性AI的結(jié)果一旦錯誤,很容易被詬??;而內(nèi)容創(chuàng)作的多樣性結(jié)果,則會被欣然接受。比如,現(xiàn)在的ChatGPT,在對一些事實性內(nèi)容的結(jié)果是不太準(zhǔn)確的,但大家仍然能夠?qū)捜萁邮?,因為它的對話是流暢的、回?fù)是有效的。
Q:您預(yù)判未來隨著生成式AI能力的提升,將在哪些行業(yè)快速滲透?
俞凱:短期來看,關(guān)于需要基于一定背景知識的創(chuàng)作型產(chǎn)業(yè),以及一切剛需AIGC的場景、重視SOP(標(biāo)準(zhǔn)作業(yè)程序)的行業(yè),能夠快速突破。比如智能寫作、文檔管理、代碼生成、流程管理、甚至游戲NPC等。
長遠(yuǎn)來看,搜索引擎和基于搜索的相關(guān)產(chǎn)業(yè),有可能被顛覆。
03
——————————
海內(nèi)外玩家技術(shù)上并沒有明顯差距
Q:近期多家中國企業(yè)已經(jīng)宣布了相關(guān)進(jìn)展,在您看來中國科技公司與海外企業(yè)之間的差距如何?需要哪些方面的努力?
俞凱:中美的差距,其實是在工程化能力、基礎(chǔ)架構(gòu)設(shè)置方面,另外還有人員經(jīng)驗的問題、長期信念決心的問題。
ChatGPT的核心是大模型技術(shù)和對話智能技術(shù),大模型是指通用基礎(chǔ)模型,當(dāng)參數(shù)足夠大的時候,比如當(dāng)有千億級以上的大模型的時候,不再需要額外的采取數(shù)據(jù)對各個領(lǐng)域進(jìn)一步訓(xùn)練。大模型的算法是通用的,而數(shù)據(jù)量在超過千億級之后,對比也就不再那么明顯。
底層基礎(chǔ)的算法是公開的,并且國內(nèi)外一流的研究機構(gòu)都有非常不錯的研究成果,在算法的迭代創(chuàng)新方面并不存在明顯差距。當(dāng)數(shù)據(jù)量足夠大,微不足道的數(shù)據(jù)差距影響也沒那么明顯。
簡而言之,技術(shù)上并沒有明顯差距,但存在技術(shù)實現(xiàn)的時間差問題。
Q:您預(yù)判,中國何時能有產(chǎn)品對標(biāo)ChatGPT?
俞凱:由于一些客觀因素,ChatGPT在國內(nèi)可能會水土不服,短時間測試沒問題,但沒辦法長期穩(wěn)定調(diào)用。我看到國內(nèi)有巨頭有在準(zhǔn)備發(fā)布相關(guān)產(chǎn)品。這是很好的方向。類GPT的產(chǎn)品,確實是需要依賴巨頭企業(yè)的投入和決心,但更令人期待的是,中國創(chuàng)業(yè)企業(yè)在基于該方向上的應(yīng)用級創(chuàng)新。
由于各方面綜合因素,從研發(fā)環(huán)境來看,國外更關(guān)注從0到1的基礎(chǔ)創(chuàng)新,而國內(nèi)更擅長從1到N的應(yīng)用級創(chuàng)新。
新技術(shù)出現(xiàn)的本質(zhì),是為了投入應(yīng)用,而不是停留在技術(shù)指標(biāo)層面的對比。我很期待中國的創(chuàng)業(yè)公司能夠基于用戶需求、產(chǎn)品情況,去探索出更多的類GPT應(yīng)用,不管是在AI輔助、智慧辦公、智能客服,還是在更大層面的產(chǎn)業(yè)應(yīng)用上。
04
——————————
生成式AI仍面臨挑戰(zhàn)
Q:近期圍繞著ChatGPT 成本、法律與倫理問題有諸多討論,您認(rèn)為生成式 AI 面臨哪些主要挑戰(zhàn)?
俞凱:大模型的訓(xùn)練的確是很昂貴,所以從成本來說,目前只有巨頭能負(fù)擔(dān)起高昂的投入,但當(dāng)大規(guī)模應(yīng)用起來,從長遠(yuǎn)看,大模型技術(shù)反而能夠降低機器學(xué)習(xí)的成本、提高應(yīng)用效率。
伴隨人工智能技術(shù)發(fā)展的,便一直是“AI有所為、有所不為”的討論。技術(shù)本身是中性的,關(guān)鍵是運用技術(shù)的人,應(yīng)該向善、不作惡。
生成式AI面臨的兩大挑戰(zhàn),一是數(shù)據(jù)合規(guī),包括數(shù)據(jù)來源合規(guī)、數(shù)據(jù)處理合規(guī)、數(shù)據(jù)生成合規(guī);二是應(yīng)用邊際,包括需要從人員管理上、工程化實現(xiàn)、場景領(lǐng)域上去規(guī)范應(yīng)用邊界,如何更好地“協(xié)助人類”而不是“替代人類”,甚至是淪為deep fake的幫兇。
人工智能,說到底還是人的智能。ChatGPT可以基于上下文理解的基礎(chǔ)上,根據(jù)對話聊天來不斷完善自我學(xué)習(xí)和進(jìn)化, 但是這種學(xué)習(xí)進(jìn)化的機制,本質(zhì)上也是由人類設(shè)計的。當(dāng)然,為了保證AI的良序發(fā)展,我們的確需要去嵌入一些相應(yīng)的限制手段和規(guī)則約束。
Q:近期Google對外指出了AI技術(shù)發(fā)展迅速而大公司行動緩慢的原因:需要將AI融入現(xiàn)有的產(chǎn)品與服務(wù)中,符合公司的業(yè)務(wù)戰(zhàn)略才能展開,并不能如OpenAI這樣只需要研發(fā)一款最佳模型就可以。對此您怎么看?
俞凱:基礎(chǔ)AI技術(shù)創(chuàng)新,必須最終走入產(chǎn)業(yè),結(jié)合場景應(yīng)用才會變得有價值。
作為新基建一環(huán)的AI技術(shù),不能單靠底層原始創(chuàng)新來推動發(fā)展,其落地應(yīng)用需要結(jié)合行業(yè)認(rèn)知和客戶需求輸出整體性、結(jié)果導(dǎo)向性的實用解決方案。當(dāng)然, OpenAI這樣的基礎(chǔ)模型工具也具有巨大價值?;A(chǔ)研究和應(yīng)用研究本身就屬于不同范疇,商業(yè)公司更多的還是要為市場負(fù)責(zé),要計算投產(chǎn)比,更傾向于投入應(yīng)用型研究;但基礎(chǔ)性研究卻可以更純粹地去看更底層的算法工具和更前瞻性的技術(shù)未來。
近幾年,行業(yè)也在加強產(chǎn)學(xué)研一體化合作,技術(shù)型企業(yè)和高校之間展開緊密合作,以推動基礎(chǔ)研究和應(yīng)用研究的融合,例如訊飛和中科大,思必馳和上交大。畢竟人工智能發(fā)展是一個長期主義,為了將來更穩(wěn)定、更強的突破,必須重視基礎(chǔ)創(chuàng)新和原始創(chuàng)新能力,短期內(nèi)看研發(fā)投入會很高,但長遠(yuǎn)看卻能降低成本、提高整體效率,也有利于建立中國人自己的“AI礦場”,更好地賦能傳統(tǒng)百業(yè)。
(記者:付靜;編輯:曹婧晨)
對話1000位行業(yè)領(lǐng)軍人物:安安訪談錄