ChatGPT是個(gè)通才,可以與各行各業(yè)的人們對(duì)話(huà),因?yàn)樗脕?lái)訓(xùn)練的語(yǔ)言,來(lái)自整個(gè)網(wǎng)絡(luò)和人類(lèi)所有的知識(shí)寶庫(kù),并且建立在一個(gè)看似無(wú)所不包的知識(shí)體系之上。
無(wú)論是ChatGPT之類(lèi)的聊天機(jī)器人,還是其他的內(nèi)容生成技術(shù)與應(yīng)用,背后都是日益強(qiáng)大的學(xué)習(xí)和訓(xùn)練的計(jì)算系統(tǒng),它們被稱(chēng)為大型語(yǔ)言模型(LLM),動(dòng)輒設(shè)置成千上萬(wàn)億個(gè)參數(shù)。機(jī)器很難像人類(lèi)一樣通過(guò)推理來(lái)進(jìn)行有效的學(xué)習(xí),所以機(jī)器學(xué)習(xí)的能力很大程度上依賴(lài)于海量的數(shù)據(jù)。
【資料圖】
但是,人類(lèi)的語(yǔ)言是有限的,當(dāng)計(jì)算機(jī)建立起越來(lái)越巨大的算力和強(qiáng)大的算法,自然語(yǔ)言作為“原料”供應(yīng),是不是終有一天像石油一樣,被人類(lèi)開(kāi)采枯竭?當(dāng)前的機(jī)器學(xué)習(xí)模型依賴(lài)于不斷增長(zhǎng)的巨大數(shù)據(jù)集,其發(fā)展趨勢(shì)是否可能會(huì)放緩?
是的,語(yǔ)言數(shù)據(jù)資源是有限的,高質(zhì)量的語(yǔ)言數(shù)據(jù)更是有限的。
來(lái)自阿伯丁大學(xué)、麻省理工大學(xué)、圖賓根大學(xué)的Pablo Villalobos等6位計(jì)算機(jī)科學(xué)家,近日發(fā)布了一篇論文,名為《我們會(huì)用完數(shù)據(jù)嗎?機(jī)器學(xué)習(xí)中數(shù)據(jù)集縮放的局限性分析》。他們開(kāi)發(fā)的概率模型,估算了2022年至2100年之間可用的語(yǔ)言和視覺(jué)數(shù)據(jù)的總量,估計(jì)了語(yǔ)言和視覺(jué)模型訓(xùn)練數(shù)據(jù)集規(guī)模的演變趨勢(shì),試圖發(fā)現(xiàn)由于可用數(shù)據(jù)耗盡而導(dǎo)致的趨勢(shì)的極限。
目前絕大多數(shù)存量數(shù)據(jù)是用戶(hù)生成的,存儲(chǔ)在社交媒體平臺(tái)、博客、論壇等。有三個(gè)因素決定了在一個(gè)給定的時(shí)間段內(nèi)產(chǎn)生多少內(nèi)容:人口數(shù)量、互聯(lián)網(wǎng)滲透率、每個(gè)互聯(lián)網(wǎng)用戶(hù)產(chǎn)生的平均數(shù)據(jù)量。
互聯(lián)網(wǎng)上的大部分文本數(shù)據(jù)對(duì)訓(xùn)練大型語(yǔ)言模型(LLM)都沒(méi)有用,專(zhuān)業(yè)人士通常只使用高質(zhì)量的數(shù)據(jù)來(lái)訓(xùn)練模型,因?yàn)檫@是他們希望模型學(xué)習(xí)和效仿的語(yǔ)言類(lèi)型。常見(jiàn)的高質(zhì)量數(shù)據(jù)的來(lái)源是書(shū)籍、新聞文章、科學(xué)論文、維基百科和過(guò)濾后的網(wǎng)頁(yè)內(nèi)容。這些數(shù)據(jù)源的一個(gè)共同特性是,它們經(jīng)過(guò)了質(zhì)量和有用性的篩選。例如,在新聞、科學(xué)文章或開(kāi)源代碼項(xiàng)目中,有用性必須由專(zhuān)業(yè)標(biāo)準(zhǔn)(如同行評(píng)議)的篩選產(chǎn)生。
他們發(fā)現(xiàn),語(yǔ)言數(shù)據(jù)枯竭情況比視覺(jué)數(shù)據(jù)嚴(yán)峻得多。
語(yǔ)言和視覺(jué)模型的數(shù)據(jù)存量的增長(zhǎng)速度比訓(xùn)練數(shù)據(jù)集的大小慢得多,所以如果按照目前的趨勢(shì)繼續(xù)下去,數(shù)據(jù)集最終會(huì)因?yàn)閿?shù)據(jù)枯竭而停止增長(zhǎng)。
對(duì)于語(yǔ)言模型來(lái)說(shuō),數(shù)據(jù)耗盡的情況將在2030年到2040年之間發(fā)生。語(yǔ)言大模型的訓(xùn)練數(shù)據(jù)主要來(lái)自互聯(lián)網(wǎng),現(xiàn)在的模型越做越大,已經(jīng)把網(wǎng)上能收集到的網(wǎng)頁(yè)數(shù)據(jù)用的差不多了,或者說(shuō)隨著算力投入的進(jìn)一步增加,基本上能夠把網(wǎng)絡(luò)上收集到的數(shù)據(jù)全部用盡。
近在眼前的擔(dān)憂(yōu)是,高質(zhì)量語(yǔ)言數(shù)據(jù)在 2026 年之前耗盡。
高質(zhì)量數(shù)據(jù)增長(zhǎng)的放緩是不可避免的,對(duì)于高質(zhì)量的語(yǔ)言數(shù)據(jù)來(lái)說(shuō)尤其如此。高質(zhì)量的數(shù)據(jù)集通常包括了50%的用戶(hù)生成內(nèi)容,15%~20%的書(shū)籍,10%~20%的科學(xué)論文,近10%的代碼和近10%的新聞。
研究人員估算了數(shù)字化書(shū)籍、公共GitHub和科學(xué)論文中可用文本的全部數(shù)量,并假設(shè)其占據(jù)高質(zhì)量數(shù)據(jù)集的30%到50%之間,從而預(yù)測(cè)出當(dāng)前高質(zhì)量語(yǔ)言數(shù)據(jù)的總存量為9萬(wàn)億(即9e12,上下限大概為4.6萬(wàn)億到17萬(wàn)億)個(gè)單詞,每年增長(zhǎng)率為 4% 到 5%。以高質(zhì)量語(yǔ)言數(shù)據(jù)庫(kù)作為上限來(lái)預(yù)測(cè)語(yǔ)言數(shù)據(jù)集的增長(zhǎng),放緩發(fā)生得更早,在2026年之前。
相比之下,低質(zhì)量語(yǔ)言數(shù)據(jù)的存量在69萬(wàn)億~7.1億億個(gè)單詞之間,當(dāng)前增長(zhǎng)率在6.41%至17.49%之間。其中,谷歌這樣資金雄厚的大公司可用的數(shù)據(jù)存量約為100萬(wàn)億個(gè)單詞;所有科技公司可用的約為1000萬(wàn)億個(gè)單詞;全人類(lèi)擁有約1億億個(gè)單詞,也包括了所有的短信、電話(huà)和視頻會(huì)議等所產(chǎn)生的數(shù)據(jù)。低質(zhì)量數(shù)據(jù)集先是隨著時(shí)間推移會(huì)快速增長(zhǎng),達(dá)到2030年后,增長(zhǎng)會(huì)大幅放緩,直到耗盡數(shù)據(jù)存量。
視覺(jué)數(shù)據(jù)的情況要復(fù)雜一些。
現(xiàn)在互聯(lián)網(wǎng)上的存量視覺(jué)數(shù)據(jù)數(shù)量在8.1萬(wàn)億到23萬(wàn)億之間,目前的年增長(zhǎng)率在8%左右,視覺(jué)模型數(shù)據(jù)耗盡的情況將在2030年到2060年之間發(fā)生,相對(duì)于語(yǔ)言模型來(lái)說(shuō),目前看起來(lái)情況還沒(méi)有那么嚴(yán)重。IDEA研究院計(jì)算機(jī)視覺(jué)與機(jī)器人研究中心講席科學(xué)家張磊博士認(rèn)為,主要原因是視覺(jué)數(shù)據(jù)的維度和復(fù)雜度要更高,使得現(xiàn)有模型能夠使用的數(shù)據(jù)量和網(wǎng)上存在的數(shù)據(jù)量相比還有比較大的差距。
“視覺(jué)數(shù)據(jù)更復(fù)雜,視覺(jué)方面的問(wèn)題也更多樣化?,F(xiàn)在的視覺(jué)大模型通常都是針對(duì)全圖(whole image)理解的預(yù)訓(xùn)練,即模型只是針對(duì)全圖做分類(lèi)或圖文檢索類(lèi)的學(xué)習(xí),但是視覺(jué)還有很多細(xì)粒度的問(wèn)題,比如物體檢測(cè)、視覺(jué)分割等,大模型學(xué)到的全圖表征用于細(xì)粒度問(wèn)題也會(huì)性能遞減。這些困難使得視覺(jué)模型還不能簡(jiǎn)單地用增加數(shù)據(jù)的方法來(lái)解決?!?/p>
張磊博士還強(qiáng)調(diào),視覺(jué)模型繼續(xù)增加數(shù)據(jù)量,獲得的增益也會(huì)逐漸變小,這也需要視覺(jué)算法方面的進(jìn)一步改進(jìn),因此,視覺(jué)大模型目前還沒(méi)有達(dá)到單純?cè)黾訑?shù)據(jù)提高效果的階段,還有更多的問(wèn)題需要研究。
如果未來(lái)數(shù)據(jù)效率提升,大模型用更少的數(shù)據(jù)就能實(shí)現(xiàn)相同的功能;如果證明縮放定律是錯(cuò)誤的,即使數(shù)據(jù)效率沒(méi)有額外的提升,或許還有更好的方法來(lái)使用更少的數(shù)據(jù);如果通過(guò)遷移學(xué)習(xí),多模態(tài)模型可能被證明比單一模態(tài)的模型表現(xiàn)得更好,這將有效地增加數(shù)據(jù)存量,從而擴(kuò)大所有數(shù)據(jù)模態(tài)存量的組合。
合成數(shù)據(jù)將來(lái)是一個(gè)重要的數(shù)據(jù)來(lái)源,這一點(diǎn)受到最近騰訊發(fā)布的AIGC報(bào)告的極度看好。MIT科技評(píng)論將AI合成數(shù)據(jù)列為2022年10大突破性技術(shù)之一;Gartner也預(yù)測(cè)稱(chēng),到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù),成為訓(xùn)練AI的主要數(shù)據(jù)來(lái)源。
此外,一些非自然語(yǔ)言的數(shù)據(jù)也會(huì)大量產(chǎn)生。例如,如果大規(guī)模采用自動(dòng)駕駛汽車(chē)將導(dǎo)致空前數(shù)量的道路視頻記錄;如果擁有充足的預(yù)算(如有政府或大公司的參與),也許能夠增加數(shù)據(jù)的產(chǎn)出,特別是在針對(duì)特定領(lǐng)域的高質(zhì)量數(shù)據(jù)。
目前一個(gè)問(wèn)題仍在擺在眼前:更多的數(shù)據(jù)難道一定就會(huì)“喂養(yǎng)”出更好的模型嗎?也不一定。正如前文張磊博士所說(shuō)的,“目前視覺(jué)模型的相關(guān)困難還不能簡(jiǎn)單地用通過(guò)增加數(shù)據(jù)的方法來(lái)解決?!?/p>
關(guān)鍵詞:
網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書(shū)面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com