環(huán)球熱資訊！GPT-4 OpenAI的斷崖式領先人類的專屬技能不多了

時間：2023-03-15 15:21:03

圖片來源@視覺中國

文 | 甲子光年，作者 | 趙健

(相關資料圖)

人工智能會替代人類嗎？在ChatGPT出現之后，人類對于這個問題的答案已經越來越沒有信心。

而在昨天夜里，OpenAI低調發(fā)布了深度學習新的里程碑：GPT-4，一個比ChatGPT更強大的大模型！OpenAI表示，GPT-4雖然在許多現實世界場景中的能力依舊不如人類，但在各種專業(yè)和學術基準上已經和人類表現持平。

GPT-4是一個多模態(tài)大模型，具有更強大的創(chuàng)造性、更長的上下文處理能力，可支持圖像輸入，還可以自定義GPT-4的語言風格。在OpenAI短短24分鐘的發(fā)布會中，有這樣一個場景：在草稿本上用紙筆畫出一個非常粗糙的草圖，拍照并上傳，GPT-4在10秒左右直接生成了網站代碼。

著名經濟學家朱嘉明表示：GPT-4是OpenAI創(chuàng)造出的又一個重大科技事件，達到了AI歷史上前所未有的、不可逆轉的新高度。

過去兩年，OpenAI重建了整個深度學習堆棧，并與微軟Azure一起從頭開始共同設計了一臺超級計算機。一年前，OpenAI訓練GPT-3.5（即ChatGPT）作為系統(tǒng)的第一次“試運行”，發(fā)現并修復了一些錯誤并改進了理論基礎。

OpenAI花了6個月的時間來迭代調整GPT-4，取得了有史以來最好的結果，并且成為第一個能夠提前準確預測其訓練性能的大型模型。這意味著大模型的訓練方法將會從過去的純粹“暴力美學”進化出更高的可控性與預期性。

這次OpenAI并沒有公布論文，只有一份技術報告，并且不提供架構（包括模型大?。⒂布?、訓練計算、數據集構建、訓練方法等細節(jié)。換句話說，其他AI公司不可能再像過去一樣，走一條模仿、復現、超越的道路了。

壓力來到了國內公司，尤其是明天即將發(fā)布文心一言的百度。

比ChatGPT更強大

GPT-4比以往任何時候都更具創(chuàng)造性和協作性。它可以承擔文本、音頻、圖像的生成、編輯任務，并能與用戶一起迭代創(chuàng)意和技術寫作任務，例如創(chuàng)作歌曲、編寫劇本或學習用戶的寫作風格等。

GPT-4能夠處理超過25000個單詞的文本，允許使用長格式內容創(chuàng)建、擴展對話以及文檔搜索和分析等用例。

在簡單的談話中，ChatGPT與GPT-4可能看不出太大差距。但是，當任務的復雜性達到足夠的閾值時，差異就會出現——GPT-4比GPT-3.5更可靠、更有創(chuàng)意，并且能夠處理更細微的指令。

左邊是ChatGPT，右邊是GPT-4

為了解這兩種模型之間的區(qū)別，OpenAI在各種基準測試中進行了測試，包括人類的模擬考試，比如GRE。OpenAI并沒有針對這些考試進行專門培訓，但GPT-4的排名依然名列前茅。例如，它通過模擬律師考試，分數在應試者的前10%左右；相比之下，GPT-3.5的得分在倒數10%左右。

GPT-4在語言風格上也迎來了更新。與具有固定冗長語氣和風格的經典ChatGPT不同，開發(fā)人員（普通用戶也將會開放）現在可以在“系統(tǒng)”消息中通過描述來規(guī)定他們的AI風格和任務，也就是“自定義”能力。

OpenAI在為機器學習模型設計的傳統(tǒng)基準上評估了GPT-4，大大優(yōu)于現有的大型語言模型，以及大多數最先進的 (SOTA) 模型：

許多現有的ML基準測試都是用英語編寫的。OpenAI使用Azure Translate將MMLU基準——一套涵蓋57個主題的 14000個多項選擇題——翻譯成多種語言。在測試的24種語言中，GPT-4優(yōu)于GPT-3.5和其他LLM（Chinchilla、PaLM）的英語語言性能，包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言：

OpenAI表示內部也在使用GPT-4，對支持、銷售、內容審核和編程等功能產生了巨大影響。

多模態(tài)大模型，支持圖片輸入

除了文本能力的增強，GPT-4還帶來了新的能力——多模態(tài)，它可以接受圖像作為輸入并生成說明、分類和分析結果。

具體來說，它能在用戶輸入散布式文本與圖像后，自主生成文本輸出（自然語言、代碼等）。在包括帶有文本和照片的文檔、圖表與屏幕截圖中，GPT-4展示了與純文本輸入同樣強大的功能。此外，它還可以通過為純文本語言模型開發(fā)的測試時間技術實現進化，能運用少量鏡頭和思維鏈提示。

不過，GPT-4的圖像輸入展示仍然只是研究“樣品”預覽，真正的成果尚未公開。

GPT-4可以指出被加工圖片的“異常”之處

GPT-4還能讀懂“梗圖”，理解幽默

GPT-4甚至可以直接閱讀并分析帶有圖片的論文：

OpenAI在一組標準的學術視覺基準測試中對GPT-4的表現進行評估，預覽了它的性能。然而，OpenAI表示這些數字并不完全代表它的能力范圍，因為OpenAI不斷發(fā)現這個模型能夠解決新的、“令人興奮”的任務。OpenAI計劃很快發(fā)布更多的分析和評估數據，以及對測試時間技術影響的全面調查。

花6個月時間訓練，但訓練數據只截止到2021年9月

GPT-4是如何訓練出來的？

遵循GPT、GPT-2和GPT-3的研究路徑，OpenAI的深度學習方法利用更多數據和更多計算來創(chuàng)建越來越復雜和強大的語言模型。

過去兩年，OpenAI重建了整個深度學習堆棧，并與微軟Azure一起從頭開始共同設計了一臺超級計算機。一年前，訓練GPT-3.5作為系統(tǒng)的第一次“試運行”，OpenAI發(fā)現并修復了一些錯誤并改進了理論基礎。結果，GPT-4 訓練運行前所未有地穩(wěn)定，成為能夠提前準確預測其訓練性能的第一個大型模型。

OpenAI花了6個月的時間使用對抗性測試程序和ChatGPT的經驗教訓迭代調整 GPT-4，從而在真實性、可操縱性以及拒絕越界和敏感問題方面獲得了有史以來最好的結果。在OpenAI的內部評估中，與GPT-3.5相比，GPT-4響應被禁止內容請求的可能性低82%，產生事實響應的可能性高40%。

與以前的GPT模型一樣，GPT-4基礎模型經過訓練可以預測文檔中的下一個單詞，并且使用公開可用的數據（例如互聯網數據）以及已獲得許可的數據進行訓練。

盡管功能強大，但GPT-4與早期的GPT模型具有相似的局限。最重要的是，它仍然不完全可靠，會“幻覺”事實并出現推理錯誤。

GPT-4的訓練數據截止到2021年9月，因此對之后發(fā)生的事件缺乏了解，并且不會從自己的經驗中學習。它有時會犯一些簡單的推理錯誤，這些錯誤似乎與其強大的跨領域功能不符，有時也會過于輕信用戶明顯錯誤的陳述；有時，它也會像人類一樣在解決難題時失敗，例如在生成的代碼中引入安全漏洞。

OpenAI提醒，在使用語言模型輸出時應格外小心，特別是在高風險上下文中，使用符合特定用例需求的確切協議（例如人工審查、附加上下文的基礎或完全避免高風險使用）。

為此，OpenAI納入了更多的人工反饋，包括ChatGPT用戶提交的反饋——這其中可能也包括你與ChatGPT的對話數據。OpenAI還與50多位專家合作，在AI安全和保障等領域獲得早期反饋。

雖然生成內容的可靠性仍是一個真問題，但GPT-4相對于以前的模型顯著減少了胡說八道。在OpenAI的內部對抗性真實性評估中，GPT-4的得分比OpenAI最新的GPT-3.5高 40%：

GPT-4項目的主要焦點之一是構建可預測擴展的深度學習框架，主要原因是對于像GPT-4這樣非常大的訓練任務，進行大量的模型特定調整是不可行的。

OpenAI開發(fā)了基礎設施和優(yōu)化方法，能夠在多個規(guī)模下表現出非?？深A測的行為。為了驗證這種可擴展性，OpenAI通過對使用相同方法進行訓練但計算量少10000倍的模型進行推斷，在內部代碼庫（不是訓練集的一部分）上準確預測了GPT-4的最終損失。

現在OpenAI可以準確預測OpenAI在訓練期間優(yōu)化的指標（損失），開始開發(fā)方法來預測更多可解釋的指標。例如，OpenAI成功預測了HumanEval數據集子集的通過率，從計算量減少 1000 倍的模型推斷。

OpenAI認為，準確預測未來的機器學習能力是安全的重要組成部分，但相對于其潛在影響而言，它并沒有得到足夠的重視。OpenAI正在加大力度開發(fā)方法，為社會提供更好的未來系統(tǒng)預期指導，希望這成為該領域的共同目標。

如何嘗鮮GPT-4？

目前有兩種辦法可以體驗GPT-4。

如果你是普通用戶，此前訂閱了ChatGPT Plus，將會直接獲得GPT-4的訪問權限。不過，ChatGPT Plus只能用美國信用卡開通。

OpenAI將根據實踐中的需求和系統(tǒng)性能調整使用上限，但預計會受到嚴重的容量限制。

根據OpenAI看到的流量模式，OpenAI可能會為更高容量的GPT-4使用引入新的訂閱級別；OpenAI也希望在某個時候提供一些免費的GPT-4查詢，這樣那些沒有訂閱的人也可以嘗試一下。

如果你是開發(fā)者，要訪問GPT-4 API（使用與GPT-3.5-turbo相同的ChatCompletions API），需要像等待New Bing一樣加入OpenAI的候補名單。

OpenAI今天將開始邀請一些開發(fā)人員，并逐步擴大規(guī)模以平衡容量與需求。

OpenAI也公布了定價策略——每1000個prompt tokens0.03美元，每1000個completion tokens 0.06美元。默認速率限制為每分鐘4萬個token和每分鐘200個請求。

GPT-4的上下文長度為8192個token。OpenAI還提供了32768 個tokens上下文（約50頁文本）版本的有限訪問，該版本也將隨著時間自動更新（當前版本GPT-4-32k-0314，支持到6月14日)。定價為每1000個prompt token 0.06美元和每1000個completion token 0.12美元。

此外，OpenAI宣布開源其軟件框架OpenAI Evals，用于創(chuàng)建和運行基準測試以評估GPT-4等模型。

OpenAI使用Evals來指導OpenAI模型的開發(fā)，OpenAI的用戶可以應用它來跟蹤模型版本的性能，并不斷發(fā)展產品集成。例如，Stripe使用Evals來補充他們的人工評估，以衡量其基于GPT的文檔工具的準確性。

由于所有代碼都是開源的，Evals支持編寫新的類來實現自定義評估邏輯。然而，在OpenAI自己的經驗中，許多基準測試都遵循幾種“模板”的其中之一，因此OpenAI還包括了最有用的模板，包括一個“模型評估模板”——OpenAI發(fā)現GPT-4出人意料地能夠檢查自己的工作。

OpenAI希望Evals成為分享和眾包基準測試的工具，代表著最廣泛的失敗模式和困難任務。作為一個示范，OpenAI創(chuàng)建了一個邏輯謎題評估，其中包含GPT-4失敗的十個提示。Evals也與實施現有基準測試兼容；OpenAI包括了幾個實施學術基準測試和幾個（小的子集）CoQA集成的筆記本作為示例。

GPT-4已經積累了部分商業(yè)客戶。比如，Stripe使用GPT-4掃描商業(yè)網站并向客戶支持人員提供摘要，Duolingo將 GPT-4構建到新的語言學習訂閱層中。摩根士丹利正在創(chuàng)建一個由GPT-4驅動的系統(tǒng)，該系統(tǒng)將從公司文件中檢索信息并將其提供給金融分析師。可汗學院正在利用GPT-4構建某種自動化導師。

GPT-4將大模型推向了一個新的高度，甚至是“斷崖式”領先。包括谷歌、百度在內的海內外科技公司，不可避免地將面對自家產品“發(fā)布即落后”的尷尬局面，而微軟則躺在OpenAI背后“賺麻了”。

關鍵詞：

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環(huán)球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業(yè) 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業(yè)務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環(huán)球報道:[今日關注] 南昌男科醫(yī)院男科...
環(huán)球報道:[今日關注] 南昌男科醫(yī)院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監(jiān)會立案！此前剛遭上交所紀律處分！-...
證監(jiān)會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)...
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮(zhèn)江中國獨角獸企業(yè)數量全國排...
世界滾動:鎮(zhèn)江中國獨角獸企業(yè)數量全國排...
世界播報:新疆挖掘南疆特色產業(yè)潛力
世界播報:新疆挖掘南疆特色產業(yè)潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區(qū)便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養(yǎng)權怎么判
頭條焦點：離婚二審撫養(yǎng)權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環(huán)球速讀：瘋狂！散戶大買15億，美股空...
環(huán)球速讀：瘋狂！散戶大買15億，美股空...
世界動態(tài):首屆京津冀生態(tài)產業(yè)創(chuàng)新發(fā)展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區(qū)服務
港交所紐約辦事處開幕　提升北美地區(qū)服務
韓媒：韓國環(huán)境部已批準“薩德”基地環(huán)...
看圖學習｜中華優(yōu)秀傳統(tǒng)文化是中華民族...
看圖學習｜中華優(yōu)秀傳統(tǒng)文化是中華民族...
當前觀察：郴電國際郴州分公司營業(yè)班獲...
當前觀察：郴電國際郴州分公司營業(yè)班獲...
天天新動態(tài)：三亞22日10時起發(fā)放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監(jiān)察機關統(tǒng)籌用好基層監(jiān)督力量精...
紀檢監(jiān)察機關統(tǒng)籌用好基層監(jiān)督力量精...
總投資約36億元，惠州新材料產業(yè)園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發(fā)布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發(fā)行熱度持續(xù)上升多家龍頭企業(yè)扎堆...
GDR發(fā)行熱度持續(xù)上升多家龍頭企業(yè)扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環(huán)球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區(qū)別_近親屬|當前看點
近親屬和親屬的區(qū)別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發(fā)者選項在哪里能打開？oppo手機

熱文

環(huán)球報道:[今日關注] 南昌男科醫(yī)院男科收費高嗎排名公開
證監(jiān)會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業(yè)潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優(yōu)秀的演員！|每日熱文