為應(yīng)對(duì)新一輪技術(shù)競(jìng)賽,谷歌還在不斷出后手。
【資料圖】
這兩天,一個(gè)名叫PaLM-E的大模型在AI學(xué)術(shù)圈瘋狂刷屏。
它能只需一句話,就讓機(jī)器人去廚房抽屜里拿薯片。
即便是中途干擾它,它也會(huì)堅(jiān)持執(zhí)行任務(wù)。
PaLM-E擁有5620億參數(shù),是GPT-3的三倍多,號(hào)稱(chēng)史上最大規(guī)模視覺(jué)語(yǔ)言模型。而它背后的打造團(tuán)隊(duì),正是谷歌和柏林工業(yè)大學(xué)。
作為一個(gè)能處理多模態(tài)信息的大模型,它還兼具非常強(qiáng)的邏輯思維。
比如能從一堆圖片里,判斷出哪個(gè)是能滾動(dòng)的。
還會(huì)看圖做算數(shù):
有人感慨:
這項(xiàng)工作比ChatGPT離AGI更近一步?。?/p>
而另一邊,微軟其實(shí)也在嘗試ChatGPT指揮機(jī)器人干活。
這么看,谷歌是憑借PaLM-E一步到位了?
邏輯性更強(qiáng)的大模型
PaLM-E是將PaLM和ViT強(qiáng)強(qiáng)聯(lián)合。
5620億的參數(shù)量,其實(shí)就是如上兩個(gè)模型參數(shù)量相加而來(lái)(5400億+220億)。
PaLM是谷歌在22年發(fā)布的語(yǔ)言大模型,它是Pathways架構(gòu)訓(xùn)練出來(lái)的,能通過(guò)“思考過(guò)程提示”獲得更準(zhǔn)確的邏輯推理能力,減少AI生成內(nèi)容中的錯(cuò)誤和胡言亂語(yǔ)。
Pathways是一種稀疏模型架構(gòu),是谷歌AI這兩年重點(diǎn)發(fā)展方向之一,目標(biāo)就是訓(xùn)練出可執(zhí)行成千上百種任務(wù)的通用模型。
ViT是計(jì)算機(jī)視覺(jué)領(lǐng)域的經(jīng)典工作了,即Vision Transformer。
兩者結(jié)合后,PaLM-E可以處理多模態(tài)信息。包括:
語(yǔ)言
圖像
場(chǎng)景表征
物體表征
通過(guò)加一個(gè)編碼器,模型可以將圖像或傳感器數(shù)據(jù)編碼為一系列與語(yǔ)言標(biāo)記大小相同的向量,將此作為輸入用于下一個(gè)token預(yù)測(cè),進(jìn)行端到端訓(xùn)練。
具體能力方面,PaLM-E表現(xiàn)出了比較強(qiáng)的邏輯性。
比如給它一張圖片,然后讓它根據(jù)所看到的做出蛋糕。
模型能先判斷出圖像中都有什么,然后分成9步講了該如何制作蛋糕,從最初的磕雞蛋到最后洗碗都包括在內(nèi)。
有人還調(diào)侃說(shuō),這機(jī)器人怎么在把蛋糕給我前先自己吃了?
還有根據(jù)圖片做判斷:我能在這條路上騎自行車(chē)嗎?
模型進(jìn)行一系列邏輯推斷:
1、不能進(jìn)入
2、除了自行車(chē)
3、除了自行車(chē)以外都不能進(jìn)入
4、答案是可以
這和人類(lèi)思考的過(guò)程確實(shí)很像了。
不僅如此,模型的最強(qiáng)大之處在于,它無(wú)需經(jīng)過(guò)預(yù)處理,即提前理解環(huán)境。
它做出判斷和回答,完全是基于它自己的“經(jīng)驗(yàn)”。
研究人員表示,這項(xiàng)成果表現(xiàn)出了很強(qiáng)的正向遷移(positive transfer)能力。
在多個(gè)領(lǐng)域任務(wù)的訓(xùn)練中,PaLM-E的表現(xiàn)都優(yōu)于單項(xiàng)任務(wù)機(jī)器人模型。
而且他們還發(fā)現(xiàn),語(yǔ)言模型的規(guī)模越大,它最終能保持的語(yǔ)言理解能力越強(qiáng)。
比如使用5400億參數(shù)規(guī)模的PaLM時(shí),PaLM-E在語(yǔ)言任務(wù)上的實(shí)際能力僅下降了3.9%。
從實(shí)驗(yàn)結(jié)果來(lái)看,PaLM-E在OK-VQA基準(zhǔn)上達(dá)到新SOTA。
在模擬環(huán)境下的任務(wù)完成度也都不錯(cuò)。
再次驗(yàn)證大力出奇跡
目前這項(xiàng)研究已引發(fā)非常廣泛的討論。
主要在于以下幾個(gè)方面:
1、一定程度上驗(yàn)證了“大力出奇跡”
2、比ChatGPT更接近AGI?
一方面,作為目前已知的規(guī)模最大的視覺(jué)語(yǔ)言模型,PaLM-E的表現(xiàn)已經(jīng)足夠驚艷了。
去年,DeepMind也發(fā)布過(guò)一個(gè)通才大模型Gota,在604個(gè)不同的任務(wù)上接受了訓(xùn)練。
但當(dāng)時(shí)有很多人認(rèn)為它并不算真正意義上的通用,因?yàn)檠芯繜o(wú)法證明模型在不同任務(wù)之間發(fā)生了正向遷移。
論文作者表示,這或許是因?yàn)槟P鸵?guī)模還不夠大。
如今,PaLM-E似乎完成了這一論證。
不過(guò)也有聲音擔(dān)心,這是不是把卷參數(shù)從NLP引到了CV圈?
另一方面,是從大趨勢(shì)上來(lái)看。
有人表示,這項(xiàng)工作看上去要比ChatGPT更接近AGI啊。
的確,用ChatGPT還只是提供文字建議,很多具體動(dòng)手的事還要自己來(lái)。
但PaLM-E屬于把大模型能力拉入到具象化層面,AI和物理世界之間的結(jié)界要被打破了。
而且這個(gè)趨勢(shì)顯然也是大家都在琢磨的,微軟前不久也發(fā)布了一項(xiàng)非常相似的工作——讓ChatGPT指揮機(jī)器人。
除此之外,還有很多人表示,這再一次驗(yàn)證了多模態(tài)是未來(lái)。
不過(guò),這項(xiàng)成果現(xiàn)在只有論文和demo發(fā)布,真正能力有待驗(yàn)證。
此外還有人發(fā)現(xiàn),模型驅(qū)動(dòng)的機(jī)器人,背后的開(kāi)發(fā)團(tuán)隊(duì)在幾周前被谷歌一鍋端了。。。
所以關(guān)于PaLM-E的更多后續(xù),咱們還得再蹲蹲看。
關(guān)鍵詞:
網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書(shū)面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com