網(wǎng)絡(luò)消費(fèi)網(wǎng) >  科技 > > 正文
世界看點(diǎn):GPT-4震撼發(fā)布:多模態(tài)大模型,直接升級ChatGPT、必應(yīng),開放API,游戲終結(jié)了?
時(shí)間:2023-03-15 06:25:28

在 ChatGPT 引爆科技領(lǐng)域之后,人們一直在討論 AI「下一步」的發(fā)展會(huì)是什么,很多學(xué)者都提到了多模態(tài),我們并沒有等太久。今天凌晨,OpenAI 發(fā)布了多模態(tài)預(yù)訓(xùn)練大模型 GPT-4。

GPT-4 實(shí)現(xiàn)了以下幾個(gè)方面的飛躍式提升:強(qiáng)大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準(zhǔn)確性顯著提高;能夠生成歌詞、創(chuàng)意文本,實(shí)現(xiàn)風(fēng)格變化。

「GPT-4 是世界第一款高體驗(yàn),強(qiáng)能力的先進(jìn)AI系統(tǒng),我們希望很快把它推向所有人,」OpenAI 工程師在介紹視頻里說道。


(資料圖)

似乎是想一口氣終結(jié)這場游戲,OpenAI 既發(fā)布了論文(更像是技術(shù)報(bào)告)、 System Card,把 ChatGPT 直接升級成了 GPT-4 版的,也開放了 GPT-4 的 API。

另外,微軟營銷主管在 GPT-4 發(fā)布后第一時(shí)間表示:「如果你在過去六周內(nèi)的任何時(shí)候使用過新的 Bing 預(yù)覽版,你就已經(jīng)提前了解了 OpenAI 最新模型的強(qiáng)大功能?!故堑?,微軟的新必應(yīng)早就已經(jīng)用上了GPT-4。

接下來,就讓我們細(xì)細(xì)品味這場震撼發(fā)布。

GPT-4:我 SAT 考 710,也能當(dāng)律師

GPT-4 是一個(gè)大型多模態(tài)模型,能接受圖像和文本輸入,再輸出正確的文本回復(fù)。實(shí)驗(yàn)表明,GPT-4 在各種專業(yè)測試和學(xué)術(shù) 基準(zhǔn)上的表現(xiàn)與人類水平相當(dāng)。例如,它通過了模擬律師考試,且分?jǐn)?shù)在應(yīng)試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數(shù) 10% 左右。

OpenAI 花了 6 個(gè)月的時(shí)間使用對抗性測試程序和 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)對 GPT-4 進(jìn)行迭代調(diào)整 ,從而在真實(shí)性、可控性等方面取得了有史以來最好的結(jié)果。

在過去的兩年里,OpenAI 重建了整個(gè) 深度學(xué)習(xí)堆棧,并與 Azure 一起為其工作負(fù)載從頭開始設(shè)計(jì)了一臺(tái)超級計(jì)算機(jī)。一年前,OpenAI 在訓(xùn)練 GPT-3.5 時(shí)第一次嘗試運(yùn)行了該超算系統(tǒng),之后他們又陸續(xù)發(fā)現(xiàn)并修復(fù)了一些錯(cuò)誤,改進(jìn)了其理論基礎(chǔ)。這些改進(jìn)的結(jié)果是 GPT-4 的訓(xùn)練運(yùn)行獲得了前所未有的穩(wěn)定,以至于 OpenAI 能夠提前準(zhǔn)確預(yù)測 GPT-4 的訓(xùn)練性能,它也是第一個(gè)實(shí)現(xiàn)這一點(diǎn)的大模型。OpenAI 表示他們將繼續(xù)專注于可靠的擴(kuò)展,進(jìn)一步完善方法,以幫助其實(shí)現(xiàn)更強(qiáng)大的提前預(yù)測性能和 規(guī)劃未來的能力,這對安全至關(guān)重要。

OpenAI 正在通過 ChatGPT 和 API(有候補(bǔ)名單)發(fā)布 GPT-4 的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI 正在與其他公司展開合作。

OpenAI 今天還開源了 OpenAI Evals,這是其用于自動(dòng)評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點(diǎn),以幫助 OpenAI 進(jìn)一步改進(jìn)模型。

有趣的是,GPT-3.5 和 GPT-4 之間的區(qū)別很微妙。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),差異就會(huì)出現(xiàn) ——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。為了了解這兩個(gè)模型之間的差異,OpenAI 在各種 基準(zhǔn)和一些為人類設(shè)計(jì)的模擬考試上進(jìn)行了實(shí)驗(yàn)。

OpenAI 還在為 機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng) 基準(zhǔn)上評估了 GPT-4。GPT-4 大大優(yōu)于現(xiàn)有的大型 語言模型,以及大多數(shù) SOTA 模型:

許多現(xiàn)有的 機(jī)器學(xué)習(xí) 基準(zhǔn)測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力,研究團(tuán)隊(duì)使用 Azure Translate 將 MMLU 基準(zhǔn) —— 一套涵蓋 57 個(gè)主題的 14000 個(gè)多項(xiàng)選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優(yōu)于 GPT-3.5 和其他大 語言模型(Chinchilla、PaLM)的英語語言性能:

就像許多使用 ChatGPT 的公司一樣,OpenAI 表示他們內(nèi)部也在使用 GPT-4,因此 OpenAI 也在關(guān)注大型 語言模型在內(nèi)容生成、銷售和編程等方面的應(yīng)用效果。OpenAI 還使用 GPT-4 輔助人們評估 AI 輸出,這也是 OpenAI 對其策略的第二階段。OpenAI 既是 GPT-4 的開發(fā)者,也是使用者。

GPT-4:我能玩梗圖

GPT-4 可以接受文本和圖像形式的 prompt,新能力與純文本設(shè)置并行,允許用戶指定任何視覺或語言任務(wù)。

具體來說,它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應(yīng)的文本輸出(自然語言、代碼等)。在一系列領(lǐng)域 —— 包括帶有文本和照片的文檔、圖表或屏幕截圖上 ——GPT-4 展示了與純文本輸入類似的功能。此外,它還可以通過為純文本 語言模型開發(fā)的測試時(shí)間技術(shù)得到增強(qiáng),包括少樣本和思維鏈 prompt。

比如給 GPT-4 一個(gè)長相奇怪的充電器的圖片,問為什么這很可笑?

GPT-4 回答道,VGA 線充 iPhone。

格魯吉亞和西亞的人均每日肉類消費(fèi),算平均數(shù):

看起來,現(xiàn)在的 GPT 已經(jīng)不會(huì)在計(jì)算上胡言亂語了:

還是太簡單,那直接讓它做題,還是個(gè)物理題:

GPT-4 看懂了法語題目,并完整解答:

GPT-4 可以理解一張照片里「有什么不對勁的地方」:

GPT-4 還可以量子速讀看論文,如果你給它 InstructGPT 的論文,讓它總結(jié)摘要,就會(huì)變成這樣:

如果你對論文里的某一個(gè)圖感興趣呢?GPT-4 也可以解釋一下:

接著來,問 GPT-4 梗圖是什么意思:

它給出了詳細(xì)的回答:

那么漫畫呢?

讓 GPT-4 解釋為什么要給 神經(jīng)網(wǎng)絡(luò)加層數(shù),似乎有一點(diǎn)加倍的幽默感。

不過 OpenAI 在這里說了,圖像輸入是研究預(yù)覽,仍不公開。

研究人員用學(xué)術(shù)的 Benchmark 視角來解讀 GPT-4 的看圖能力,然而這已經(jīng)不夠了,他們還能不斷發(fā)現(xiàn)該模型可以令人興奮地處理新任務(wù) —— 現(xiàn)在的矛盾是 AI 的能力和人類想象力之間的矛盾。

看到這里,應(yīng)該有研究人員感嘆:CV 不存在了。

可控性

與具有固定冗長、平靜語氣和風(fēng)格的經(jīng)典 ChatGPT 個(gè)性不同,開發(fā)人員(以及 ChatGPT 用戶)現(xiàn)在可以通過在「系統(tǒng)」消息中描述這些方向來規(guī)定他們的 AI 的風(fēng)格和任務(wù)。

系統(tǒng)消息允許 API 用戶在一定范圍內(nèi)定制化實(shí)現(xiàn)不同的用戶體驗(yàn)。OpenAI 知道你們在讓 ChatGPT 玩 Cosplay,也鼓勵(lì)你們這樣做。

局限性

盡管功能已經(jīng)非常強(qiáng)大,但 GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點(diǎn)是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會(huì)產(chǎn)生幻覺、生成錯(cuò)誤答案,并出現(xiàn)推理錯(cuò)誤。

目前,使用 語言模型應(yīng)謹(jǐn)慎審查輸出內(nèi)容,必要時(shí)使用與特定用例的需求相匹配的確切協(xié)議(例如人工審查、附加上下文或完全避免使用) 。

總的來說,GPT-4 相對于以前的模型(經(jīng)過多次迭代和改進(jìn))已經(jīng)顯著減輕了幻覺問題。在 OpenAI 的內(nèi)部對抗性真實(shí)性評估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

GPT-4 在 TruthfulQA 等外部 基準(zhǔn)測試方面也取得了進(jìn)展,OpenAI 測試了模型將事實(shí)與錯(cuò)誤陳述的對抗性選擇區(qū)分開的能力,結(jié)果如下圖所示。

實(shí)驗(yàn)結(jié)果表明,GPT-4 基本模型在此任務(wù)上僅比 GPT-3.5 略好;然而,在經(jīng)過 RLHF 后訓(xùn)練之后,二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時(shí)候它都能做出正確的選擇。

該模型在其輸出中可能會(huì)有各種偏見,OpenAI 在這些方面已經(jīng)取得了進(jìn)展,目標(biāo)是使建立的 人工智能系統(tǒng)具有合理的默認(rèn)行為,以反映廣泛的用戶價(jià)值觀。

GPT-4 通常缺乏對其絕大部分?jǐn)?shù)據(jù)截止后(2021 年 9 月)發(fā)生的事件的了解,也不會(huì)從其經(jīng)驗(yàn)中學(xué)習(xí)。它有時(shí)會(huì)犯一些簡單的推理錯(cuò)誤,這似乎與這么多領(lǐng)域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時(shí)它也會(huì)像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。

GPT-4 預(yù)測時(shí)也可能出錯(cuò)但很自信,意識到可能出錯(cuò)時(shí)也不會(huì) double-check。有趣的是,基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過高度校準(zhǔn)(其對答案的預(yù)測置信度通常與正確概率相匹配)。然而,通過 OpenAI 目前的后訓(xùn)練(post-training)過程,校準(zhǔn)減少了。

風(fēng)險(xiǎn)及緩解措施

OpenAI 表示,研究團(tuán)隊(duì)一直在對 GPT-4 進(jìn)行迭代,使其從訓(xùn)練開始就更加安全和一致,所做的努力包括預(yù)訓(xùn)練數(shù)據(jù)的選擇和過濾、評估和專家參與、模型安全改進(jìn)以及監(jiān)測和執(zhí)行。

GPT-4 有著與以前的模型類似的風(fēng)險(xiǎn),如產(chǎn)生有害的建議、錯(cuò)誤的代碼或不準(zhǔn)確的信息。同時(shí),GPT-4 的額外能力導(dǎo)致了新的風(fēng)險(xiǎn)面。為了了解這些風(fēng)險(xiǎn)的程度,團(tuán)隊(duì)聘請了 50 多位來自 人工智能對齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國際安全等領(lǐng)域的專家,對該模型在高風(fēng)險(xiǎn)領(lǐng)域的行為進(jìn)行對抗性測試。這些領(lǐng)域需要專業(yè)知識來評估,來自這些專家的反饋和數(shù)據(jù)為緩解措施和模型的改進(jìn)提供了依據(jù)。

預(yù)防風(fēng)險(xiǎn)

按照 demo 視頻里 OpenAI 工程師們的說法,GPT-4 的訓(xùn)練在去年 8 月完成,剩下的時(shí)間都在進(jìn)行微調(diào)提升,以及最重要的去除危險(xiǎn)內(nèi)容生成的工作。

GPT-4 在 RLHF 訓(xùn)練中加入了一個(gè)額外的安全獎(jiǎng)勵(lì)信號,通過訓(xùn)練模型拒絕對此類內(nèi)容的請求來減少有害的輸出。獎(jiǎng)勵(lì)是由 GPT-4 的零樣本分類器提供的,它判斷安全邊界和安全相關(guān) prompt 的完成方式。為了防止模型拒絕有效的請求,團(tuán)隊(duì)從各種來源(例如,標(biāo)注的生產(chǎn)數(shù)據(jù)、人類的紅隊(duì)、模型生成的 prompt)收集多樣化的數(shù)據(jù)集,在允許和不允許的類別上應(yīng)用安全獎(jiǎng)勵(lì)信號(有正值或負(fù)值)。

這些措施大大在許多方面改善了 GPT-4 的安全性能。與 GPT-3.5 相比,模型對不允許內(nèi)容的請求的響應(yīng)傾向降低了 82%,而 GPT-4 對敏感請求(如醫(yī)療建議和自我傷害)的響應(yīng)符合政策的頻率提高了 29%。

訓(xùn)練過程

與之前的 GPT 模型一樣,GPT-4 基礎(chǔ)模型經(jīng)過訓(xùn)練可以預(yù)測文檔中的下一個(gè)單詞。OpenAI 使用公開可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及已獲得許可的數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)是一個(gè)網(wǎng)絡(luò)規(guī)模的數(shù)據(jù) 語料庫,包括數(shù)學(xué)問題的正確和錯(cuò)誤解決方案、弱推理和強(qiáng)推理、自相矛盾和一致的陳述,以及各種各樣的意識形態(tài)和想法。

因此,當(dāng)提出問題時(shí),基礎(chǔ)模型的回應(yīng)可能與用戶的意圖相去甚遠(yuǎn)。為了使其與用戶意圖保持一致,OpenAI 依然使用 強(qiáng)化學(xué)習(xí)人類反饋 (RLHF) 來微調(diào)模型的行為。請注意,該模型的能力似乎主要來自預(yù)訓(xùn)練過程 ——RLHF 不會(huì)提高考試成績(甚至可能會(huì)降低它)。但是模型的控制來自后訓(xùn)練過程 —— 基礎(chǔ)模型甚至需要及時(shí)的工程設(shè)計(jì)來回答問題。

GPT-4 的一大重點(diǎn)是建立了一個(gè)可預(yù)測擴(kuò)展的 深度學(xué)習(xí)棧。主要原因是,對于像 GPT-4 這樣的大型訓(xùn)練,進(jìn)行廣泛的特定模型調(diào)整是不可行的。團(tuán)隊(duì)開發(fā)了基礎(chǔ)設(shè)施和優(yōu)化,在多種規(guī)模下都有可預(yù)測的行為。為了驗(yàn)證這種可擴(kuò)展性,他們提前準(zhǔn)確地預(yù)測了 GPT-4 在內(nèi)部代碼庫(不屬于訓(xùn)練集)上的最終損失,方法是通過使用相同的方法訓(xùn)練的模型進(jìn)行推斷,但使用的計(jì)算量為 1/10000。

現(xiàn)在,OpenAI 可以準(zhǔn)確地預(yù)測在訓(xùn)練過程中優(yōu)化的指標(biāo)(損失)。例如從計(jì)算量為 1/1000 的模型中推斷并成功地預(yù)測了 HumanEval 數(shù)據(jù)集的一個(gè)子集的通過率:

有些能力仍然難以預(yù)測。例如,Inverse Scaling 競賽旨在找到一個(gè)隨著模型計(jì)算量的增加而變得更糟的指標(biāo),而 hindsight neglect 任務(wù)是獲勝者之一。GPT-4 扭轉(zhuǎn)了這一趨勢。

能夠準(zhǔn)確預(yù)測未來的 機(jī)器學(xué)習(xí)能力對于技術(shù)安全來說至關(guān)重要,但它并沒有得到足夠的重視,OpenAI 表示正在投入更多精力開發(fā)相關(guān)方法,并呼吁業(yè)界共同努力。

OpenAI 表示正在開源 OpenAI Evals 軟件框架,它被用于創(chuàng)建和運(yùn)行 基準(zhǔn)測試以評估 GPT-4 等模型,同時(shí)可以逐樣本地檢查模型性能。

ChatGPT 直接升級至 GPT-4 版

GPT-4 發(fā)布后,OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權(quán)限。

要訪問 GPT-4 API(它使用與 gpt-3.5-turbo 相同的 ChatCompletions API),用戶可以注冊等待。OpenAI 會(huì)邀請部分開發(fā)者體驗(yàn)。

獲得訪問權(quán)限后,用戶目前可以向 GPT-4 模型發(fā)出純文本請求(圖像輸入仍處于有限的 alpha 階段)。至于價(jià)格方面,定價(jià)為每 1k 個(gè) prompt token 0.03 美元,每 1k 個(gè) completion token 0.06 美元。默認(rèn)速率限制為每分鐘 40k 個(gè) token 和每分鐘 200 個(gè)請求。

GPT-4 的上下文長度為 8,192 個(gè) token。OpenAI 還提供了 32,768 個(gè) token 上下文(約 50 頁文本)版本的有限訪問,該版本也將隨著時(shí)間自動(dòng)更新(當(dāng)前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定價(jià)為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上,就是今天 OpenAI 關(guān)于 GPT-4 的所有內(nèi)容了。令人不滿的一點(diǎn)是,OpenAI 公開的技術(shù)報(bào)告中,不包含任何關(guān)于模型架構(gòu)、硬件、算力等方面的更多信息,可以說是很不 Open 了。

不管怎樣,迫不及待的用戶大概已經(jīng)開始測試體驗(yàn)了吧。

最后,也想問一下讀者,看完 GPT-4 的發(fā)布,你有何感想。

關(guān)鍵詞:

版權(quán)聲明:
    凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考并自行核實(shí)。
熱文

網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
 

中國網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號:京ICP備2022016840號-15

營業(yè)執(zhí)照公示信息