作者|齊健
編輯|陳伊凡
二級(jí)市場(chǎng)剛冷靜了一點(diǎn),ChatGPT的風(fēng)暴又開(kāi)始席卷創(chuàng)投圈了。
(資料圖片僅供參考)
2月10日晚,原美團(tuán)聯(lián)合創(chuàng)始人王慧文的一條朋友圈在網(wǎng)絡(luò)上熱傳,這條朋友圈的截圖顯示王慧文提出的“人工智能宣言”如下:5000萬(wàn)美元,帶資入組,不在意崗位、薪資和title,求組隊(duì)。
網(wǎng)傳原美團(tuán)聯(lián)合創(chuàng)始人王慧文的朋友圈截圖
兩天后,王慧文本人在社交平臺(tái)“即刻”上正式發(fā)文宣布,雖然目前還處在學(xué)習(xí)AI的階段,但計(jì)劃出資5千萬(wàn)美元,設(shè)立北京光年之外科技有限公司,打造中國(guó)的OpenAI。王慧文在博文中稱,目前公司估值2億美元,下輪融資已有頂級(jí)VC認(rèn)購(gòu)2.3億美金。
“一石激起千層浪”,王慧文發(fā)布“AI英雄榜”后,2月14日,真格基金官方微信也發(fā)布了一則 “AI英雄帖”,稱正在尋找有能力引領(lǐng)新一代創(chuàng)業(yè)公司的創(chuàng)始人。
源碼資本創(chuàng)始合伙人曹毅在朋友圈也表示,行業(yè)也等到了老王出山。
而對(duì)于王慧文的這次AI創(chuàng)業(yè),坊間議論最多的莫過(guò)于2億多美金要撬動(dòng)中國(guó)版OpenAI這么大的項(xiàng)目,可行嗎?有哪些坑?又有哪些可能的商業(yè)化方向?
ChatGPT是怎么做出來(lái)的?
要做中國(guó)版的OpenAI,或許先要了解,OpenAI是怎么來(lái)的?它的“頭牌”ChatGPT又是如何做出來(lái)的。
從現(xiàn)在來(lái)看,通用大模型的研究是一個(gè)燒錢(qián)的游戲,2億美金可能不太夠。OpenAI成立于2015年,從可以查到的融資紀(jì)錄看,2016年-2022年,OpenAI的融資額可能超過(guò)30億美元。
與多數(shù)創(chuàng)業(yè)公司一樣,OpenAI在這些年中不太賺錢(qián)。甚至一開(kāi)始完全是以非盈利機(jī)構(gòu)的身份在開(kāi)展AI研究。不賺錢(qián)的同時(shí),OpenAI在研發(fā)方面還持續(xù)燒錢(qián)。有統(tǒng)計(jì)顯示,GPT-3的一次模型訓(xùn)練費(fèi)用可能超過(guò)百萬(wàn)美元,上線之后的ChatGPT每天回答問(wèn)題的成本也是百萬(wàn)美元規(guī)模。
從研發(fā)的資金上來(lái)看,要在短時(shí)間內(nèi),用有限的資金復(fù)制OpenAI的成功恐怕并不容易。事實(shí)上,即便是資金量夠大,AI大模型也不是說(shuō)做就能做的?!斑@玩意兒不是屯點(diǎn)錢(qián)然后花點(diǎn)時(shí)間就能干成的?!币晃籄I行業(yè)專家如是說(shuō)。
通用大模型的研究需要海量數(shù)據(jù)和技術(shù)創(chuàng)新的積累。要做一款像ChatGPT一樣紅到爆炸的產(chǎn)品,起碼要分四步。
第一步,數(shù)據(jù)收集,通過(guò)爬取互聯(lián)網(wǎng)上的大量語(yǔ)料數(shù)據(jù)來(lái)訓(xùn)練模型,語(yǔ)料數(shù)據(jù)包括了文本、對(duì)話和問(wèn)答數(shù)據(jù)等。
第二步則是模型設(shè)計(jì)和數(shù)據(jù)預(yù)處理,OpenAI選擇了Transformer模型作為ChatGPT的模型結(jié)構(gòu),并對(duì)其進(jìn)行了許多改進(jìn),以提高模型的語(yǔ)言生成能力。對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,包括語(yǔ)料的清洗、分詞和標(biāo)注等步驟。
再之后是模型訓(xùn)練和模型評(píng)估,使用大量的計(jì)算資源和高性能的訓(xùn)練算法,對(duì)模型進(jìn)行訓(xùn)練,使其能夠生成高質(zhì)量的語(yǔ)言文本。對(duì)模型的語(yǔ)言生成效果進(jìn)行評(píng)估,并不斷對(duì)模型進(jìn)行調(diào)整和優(yōu)化,以保證生成的語(yǔ)言文本具有足夠的質(zhì)量。
最后則是模型部署,將訓(xùn)練完成的模型部署到生產(chǎn)環(huán)境,供用戶使用。
“如果你手里掌握著幾十篇大模型領(lǐng)域頂會(huì)論文的技術(shù)積累,能夠接受5年,甚至更長(zhǎng)的時(shí)間,沒(méi)有盈利,并耐心完成幾百次AI試驗(yàn)。同時(shí),有微軟的Azure這樣實(shí)力雄厚的公司提供幾乎免費(fèi)的云服務(wù)。”一位AI大模型專家向虎嗅表示,“(如果是這樣的話)要做出ChatGPT,或者成為OpenAI其實(shí)并不難。”
從頭做AI大模型道阻且長(zhǎng),需要耐心和長(zhǎng)期投入。那么在資金量有限的情況下,能否先做一些能夠較為快速實(shí)現(xiàn)商業(yè)化的產(chǎn)品?
不做中國(guó)OpenAI,AI領(lǐng)域創(chuàng)業(yè)還有幾條路
如果不做OpenAI的話,筆者認(rèn)為,以王慧文現(xiàn)有的資金量,5000萬(wàn)美元的起步資金和未來(lái)2.3億美元的投資,在AI領(lǐng)域做出點(diǎn)事兒來(lái),可能另外有幾條路徑可以嘗試。
最簡(jiǎn)單的方法就是投資已有的大模型公司。不過(guò),在技術(shù)和模型訓(xùn)練方面的積累是這類公司的核心。目前,不論國(guó)內(nèi)還是國(guó)外,在通用大模型研究方面技術(shù)實(shí)力較強(qiáng)的公司多數(shù)是隸屬于互聯(lián)網(wǎng)巨頭的AI部門(mén)或研究實(shí)驗(yàn)室。在這方面,優(yōu)秀的初創(chuàng)公司不多,處于投融資早期的好標(biāo)的更是鳳毛麟角。
以5000萬(wàn)美元的資金量,其實(shí)可以嘗試找一找在“文本生成模型、方法及裝置”技術(shù)方面專利較多的,或是在Transformer大模型研究方面論文較多的AI公司,參與他們的中后期融資。不過(guò),要做早期投資或是自己創(chuàng)業(yè)的話,這種方式應(yīng)該是不在考慮范圍內(nèi)。
第二條路就是基于ChatGPT類的大模型產(chǎn)品做上層應(yīng)用,目前這種模式可以說(shuō)是通用大模型或是類ChatGPT產(chǎn)品方向比較靠譜的創(chuàng)業(yè)路徑了。畢竟在美國(guó),已經(jīng)有一些通用大模型的SaaS服務(wù)商,跑出了成功的商業(yè)落地模式。
成立于2020年的AI獨(dú)角獸Jasper的業(yè)務(wù),就是通過(guò)調(diào)用OpenAI的GPT-3模型為用戶提供文生文寫(xiě)作服務(wù)。雖然Jasper成立時(shí)間不長(zhǎng),但估值已達(dá)15億美元。
在API調(diào)用方面,OpenAI最近也被爆出可能會(huì)增強(qiáng)這項(xiàng)業(yè)務(wù),給調(diào)用API的用戶提供更多優(yōu)化和拓展空間。近期CNBC曾報(bào)道稱,有知情人士透露,OpenAI可能在未來(lái)針對(duì)ChatGPT推出類似SDK的服務(wù),可以讓用戶自己開(kāi)發(fā)基于大模型的聊天機(jī)器人,用戶可以根據(jù)需要引用特定來(lái)源的信息,以改進(jìn)自己的聊天機(jī)器人。
OpenAI的官方公告中曾提到“正在積極探索低成本計(jì)劃、業(yè)務(wù)計(jì)劃和數(shù)據(jù)包的選項(xiàng),以提高可用性?!?/p>
通用大模型正在逐步形成PaaS形式的平臺(tái)能力,基于平臺(tái)的SaaS服務(wù),自然是一條很好的創(chuàng)業(yè)路徑。不過(guò)目前,這條路最大的問(wèn)題是,在通用大模型領(lǐng)域可以提供體驗(yàn)良好,且商業(yè)化成熟的API服務(wù)公司太少,且多為美國(guó)公司。而AI領(lǐng)域涉及大量創(chuàng)新科技和敏感數(shù)據(jù),AI技術(shù)方面的跨國(guó)商務(wù)合作難免會(huì)收到數(shù)據(jù)安全,技術(shù)出口等方面的限制。
不過(guò),國(guó)內(nèi)公司在這方面也一直沒(méi)有落后,目前北京智源人工智能研究院的悟道大模型、百度文心大模型等在API服務(wù)方面均已開(kāi)展了相關(guān)的實(shí)驗(yàn)和探索工作。
最后,還有一條比較著眼未來(lái)的路徑,那就是做大模型應(yīng)用的外延拓展。
“ChatGPT最好的應(yīng)用場(chǎng)景肯定不會(huì)局限在搜索引擎,而是更個(gè)性化的智能語(yǔ)音助手。”一位NLP(自然語(yǔ)言識(shí)別)研發(fā)工程師告訴虎嗅,不管是Bing還是谷歌,在搜索領(lǐng)域的AI探索應(yīng)該都處在試水階段。而基于大模型和自然語(yǔ)音、語(yǔ)意理解的語(yǔ)音助手肯定是未來(lái)的大方向。
目前,亞馬遜的人工智能助手Alexa就正在引入基于Transformer的大規(guī)模多語(yǔ)言模型AlexaTM(Alexa Teacher Models)。百度即將推出的“文心一言”則計(jì)劃與小度深度整合,打造針對(duì)智能設(shè)備場(chǎng)景的人工智能模型「小度靈機(jī)」。
除了生活需求,基于通用大模型的AI語(yǔ)音助手,更加適合做成專業(yè)領(lǐng)域的智能助理,比如給制造業(yè)、工程建設(shè)行業(yè)提供技術(shù)支持,或是在醫(yī)療專業(yè)知識(shí)方面,給醫(yī)生提供參考建議。
一位工業(yè)領(lǐng)域?qū)<医o虎嗅舉了這樣一個(gè)例子:你想在家里掛一幅壁畫(huà),需要在墻上打個(gè)釘子。當(dāng)施工工人拿著沖擊鉆,準(zhǔn)備打眼兒的時(shí)候,他需要了解面前這堵墻的一些信息,例如墻里是否預(yù)埋了電路?是否有水管?要打眼的位置有沒(méi)有鋼筋?
這些信息要如何得知?要么問(wèn)記得管線位置的主人,要么問(wèn)裝修的工長(zhǎng),要么看裝修的圖紙。這時(shí),如果前面的三個(gè)選項(xiàng)都不可用,那么有一個(gè)對(duì)你家里信息了如指掌的智能AI,提供這種信息查詢服務(wù),不就大幅簡(jiǎn)化這個(gè)過(guò)程了嗎?
雖然現(xiàn)在市面上不乏各種類型的語(yǔ)音助手,且它們已經(jīng)能給人類提供很多幫助了,但多數(shù)此類產(chǎn)品只能理解預(yù)設(shè)的問(wèn)題,回答預(yù)設(shè)的答案,很難提供通用性的幫助。
“ChatGPT還真是挺神奇的,什么都知道。”一位航空領(lǐng)域的技術(shù)專家對(duì)虎嗅表示,他曾嘗試向ChatGPT詢問(wèn)了一些航空領(lǐng)域的技術(shù)問(wèn)題,比如:基于點(diǎn)云重構(gòu)曲面的方法,飛機(jī)隱身特性和外形參數(shù)的關(guān)系。都沒(méi)能難倒ChatGPT,且得到的回答非常專業(yè)。
ChatGPT雖然知道的多,但是要真用它給專業(yè)技術(shù)領(lǐng)域提供支持還有個(gè)很大的問(wèn)題,就是準(zhǔn)確性。很多人在與ChatGPT對(duì)話過(guò)程中都遇到過(guò)“AI編造事實(shí)”的現(xiàn)象,中文互聯(lián)網(wǎng)上流傳比較廣泛的例子包括“林黛玉倒拔垂楊柳”“賈寶玉最應(yīng)該與賈母在一起”等,在專業(yè)領(lǐng)域的應(yīng)用很難容忍這種錯(cuò)誤。
因此,類似ChatGPT的產(chǎn)品要想應(yīng)用在專業(yè)領(lǐng)域,還需要解決穩(wěn)定性和可靠性的問(wèn)題,在優(yōu)化AI、增強(qiáng)AI準(zhǔn)確性方面或許可以給新的AI創(chuàng)業(yè)公司提供方向。
給通用大模型,或是類ChatGPT產(chǎn)品提供適合AI訓(xùn)練的高質(zhì)量行業(yè)知識(shí)庫(kù),以及持續(xù)的知識(shí)更新服務(wù),或許會(huì)成為未來(lái)的一項(xiàng)AI行業(yè)服務(wù)。在強(qiáng)化學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和行業(yè)數(shù)據(jù)包(知識(shí)庫(kù))等方面做技術(shù)升級(jí),幫助大模型公司對(duì)AI進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,從而提高ChatGPT的準(zhǔn)確性和可靠性。
順著這個(gè)方向再向下延展,在自動(dòng)駕駛,生物制藥等領(lǐng)域也有很多基于通用大模型的創(chuàng)新機(jī)會(huì)。目前,百度文心、毫末智行、小鵬等國(guó)內(nèi)公司已經(jīng)開(kāi)始在自動(dòng)駕駛研究方面引入大模型技術(shù),其中包括通過(guò)圖文弱監(jiān)督預(yù)訓(xùn)練模型,利用大模型數(shù)千種物體識(shí)別能力,擴(kuò)充自動(dòng)駕駛語(yǔ)義識(shí)別數(shù)據(jù)。以及利用ChatGPT的“人類反饋強(qiáng)化學(xué)習(xí)(RLHF)”技術(shù)改進(jìn)自動(dòng)駕駛決策等。
寫(xiě)在最后
AI創(chuàng)業(yè),尤其是大模型創(chuàng)業(yè),從現(xiàn)在開(kāi)始干,或許已經(jīng)有些晚了。
從資本市場(chǎng)角度看,中國(guó)二級(jí)市場(chǎng)注意到ChatGPT的速度已經(jīng)比一級(jí)市場(chǎng)和整個(gè)AI圈子晚了2個(gè)月。
如果技術(shù)方面看,OpenAI在2015年成立,谷歌在2017年發(fā)布Transformer,2018年OpenAI推出了GPT的第一個(gè)版本,2022年底,現(xiàn)在的ChatGPT才第一次上線。即使一家公司已經(jīng)具備了OpenAI在2020年推出的大模型GPT-3的水平,現(xiàn)在開(kāi)始也要3年的時(shí)間才能追上ChatGPT。
目前OpenAI的估值達(dá)290億美元,2019年微軟就對(duì)OpenAI投資了10億美元,并為之提供了大量基于Azure的云服務(wù)支持。
而在今天,對(duì)于沒(méi)有微軟這樣一棵大樹(shù)可以依靠的初創(chuàng)公司來(lái)說(shuō),最好的情況或許是,用2.3億美元給“中國(guó)的OpenAI”打開(kāi)一個(gè)起步的局面,不過(guò)這個(gè)起步積累的階段,可能會(huì)非常長(zhǎng)。
在ChatGPT之前,中國(guó)整體的AI創(chuàng)業(yè)并聚焦到大模型研究方面。多數(shù)公司都是在做實(shí)際場(chǎng)景落地的小模型,而大模型似乎更需要在沉寂中爆發(fā),需要技術(shù)積累到一定程度的涌現(xiàn)?;⑿峤佑|過(guò)的國(guó)內(nèi)的大模型初創(chuàng)公司的創(chuàng)始人都有一個(gè)共性的特點(diǎn),他們普遍傾向于在技術(shù)實(shí)現(xiàn)了重大突破,或是找到典型應(yīng)用場(chǎng)景之后再去講技術(shù),講產(chǎn)品。
“大模型研究需要耐得住寂寞,厚積薄發(fā)。”一位AI公司創(chuàng)始人告訴虎嗅。
網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書(shū)面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com