擊敗OpenAI！谷歌公布20億參數(shù)通用語音模型支持100多語種檢測翻譯

時(shí)間：2023-03-08 10:16:47

谷歌語音模型USM目前已支持100多種語音自動(dòng)識(shí)別。

(相關(guān)資料圖)

編譯 | 吳菲凝

編輯 | 李水青

智東西3月7日報(bào)道，根據(jù)谷歌官網(wǎng)，谷歌的通用語音模型USM目前已實(shí)現(xiàn)升級(jí)，支持100多個(gè)語種內(nèi)容的自動(dòng)識(shí)別檢測。

去年11月，谷歌曾計(jì)劃創(chuàng)建一個(gè)支持1000個(gè)語種的AI模型USM。谷歌將其描述為“最先進(jìn)的通用語音模型”，擁有20億個(gè)參數(shù)，經(jīng)過涵蓋1200萬小時(shí)的語音、280億個(gè)句子和300多個(gè)語種數(shù)據(jù)集的預(yù)訓(xùn)練。

USM的強(qiáng)大效果目前已在Youtube的字幕生成中展現(xiàn)出來，可自動(dòng)翻譯和檢測如英語、漢語等主流語種，還能識(shí)別出阿薩姆語這種小眾語種，可以說“精通方言”。

根據(jù)谷歌博客，與OpenAI的大型通用語音模型Whisper相比，USM的數(shù)據(jù)訓(xùn)練時(shí)長更短，錯(cuò)誤率更低。

01.可自動(dòng)檢測翻譯100+語種

USM面臨兩大挑戰(zhàn)

當(dāng)微軟和谷歌還在為誰家的AI聊天機(jī)器人更智能而爭論不休時(shí)，我們需要清楚，語音模型的用途遠(yuǎn)不止于此。

外媒The Verge的記者稱，除了相傳將在今年的I/O開發(fā)者大會(huì)中展示的20多款A(yù)I驅(qū)動(dòng)產(chǎn)品之外，谷歌目前還在朝著更高目標(biāo)邁進(jìn)——構(gòu)建一個(gè)支持1000種語種的機(jī)器學(xué)習(xí)模型。

在周一發(fā)布的更新中，谷歌分享了更多有關(guān)USM的信息，谷歌稱，這是構(gòu)建支持1000種語言的通用語音模型的“關(guān)鍵第一步”。

USM已被YouTube用于生成字幕，它還支持自動(dòng)語音識(shí)別（ASR），可自動(dòng)檢測和翻譯語言，不僅包括普通話、英語等廣泛使用的語言，還包括阿姆哈拉語、宿務(wù)語、阿薩姆語等冷門語言。

目前，谷歌稱USM可支持檢測100多個(gè)語種，并將作為構(gòu)建更大的系統(tǒng)的“基礎(chǔ)”。不過，這項(xiàng)技術(shù)似乎還有些遙遠(yuǎn)，谷歌在I/O開發(fā)者大會(huì)期間對阿拉伯語的錯(cuò)誤表述就已證明。

谷歌研究院科學(xué)家張宇（Yu Zhang）和軟件工程師詹姆斯·秦（James Qin）在谷歌博客上發(fā)文稱，為了實(shí)現(xiàn)USM這個(gè)雄心勃勃的目標(biāo)，他們目前需要解決ASR面臨的兩個(gè)重大挑戰(zhàn)。

一是傳統(tǒng)的學(xué)習(xí)方法的缺乏可擴(kuò)展性。語音技術(shù)擴(kuò)展到多語種的一個(gè)基本挑戰(zhàn)是需要足夠的數(shù)據(jù)來訓(xùn)練高質(zhì)量的模型，使用傳統(tǒng)方法時(shí)，需要手動(dòng)將音頻數(shù)據(jù)進(jìn)行標(biāo)記，既耗時(shí)又價(jià)格高昂，對于那些小眾冷門的語種而言，也更難找到預(yù)先存在的來源收集。因此，研究院后續(xù)準(zhǔn)備將傳統(tǒng)學(xué)習(xí)方法轉(zhuǎn)變?yōu)樽晕冶O(jiān)督學(xué)習(xí)，利用純音頻來收集數(shù)據(jù)。

二是在擴(kuò)大語言覆蓋范圍和質(zhì)量的同時(shí)，模型必須以計(jì)算效率更高的方法來改進(jìn)。這就要求學(xué)習(xí)算法更加靈活、高效、泛化。這些算法需要使用來源廣泛的數(shù)據(jù)，并在不用完全訓(xùn)練的情況下更新模型，再推廣到新的語言中。

02.三個(gè)步驟降低識(shí)別錯(cuò)誤率

擊敗OpenAI

據(jù)該團(tuán)隊(duì)發(fā)表的論文稱，USM使用的是標(biāo)準(zhǔn)的編碼器-解碼器架構(gòu)，其中解碼器是CTC、RNN-T和LAS，編碼器使用的是Conformer或卷積增強(qiáng)變換器。其中，Conformer使用的關(guān)鍵組件是Conformer塊，由注意力模塊、前饋模塊和卷積模塊組成，應(yīng)用一系列Conformer塊和投影層以最終嵌入。

據(jù)論文顯示，對于USM的訓(xùn)練共分為三個(gè)步驟。

第一步是使用BEST-RQ來對涵蓋數(shù)百種語種的語音音頻進(jìn)行自我監(jiān)督學(xué)習(xí)，已經(jīng)在多語言任務(wù)上展示了最先進(jìn)的結(jié)果，在使用了大量的無監(jiān)督音頻數(shù)據(jù)后的證明結(jié)果是有效的。

第二步需要使用多目標(biāo)監(jiān)督預(yù)訓(xùn)練來整合來自于其他文本數(shù)據(jù)的信息。該模型引入了一個(gè)額外的編碼器模塊來輸入文本，并引入額外層來組合語音編碼器和文本編碼器的輸出，并在未標(biāo)記語音、標(biāo)記語音和文本數(shù)據(jù)上聯(lián)合訓(xùn)練模型。

最后一步需要USM對下游任務(wù)進(jìn)行微調(diào)，包括ASR（自動(dòng)語音識(shí)別）和AST（自動(dòng)語音翻譯）。

USM的整體培訓(xùn)渠道

對于USM的有效性，團(tuán)隊(duì)通過Youtube Caption的多語言語音數(shù)據(jù)進(jìn)行微調(diào)來驗(yàn)證。

受監(jiān)督的Youtube數(shù)據(jù)包括有73種語種，每個(gè)語種的數(shù)據(jù)不到3000小時(shí)。盡管監(jiān)督的數(shù)據(jù)有限，但USM在73個(gè)語種當(dāng)中實(shí)現(xiàn)了平均低于30%的單詞容錯(cuò)率（WER），與當(dāng)前內(nèi)部最先進(jìn)的模型相比降低了6%。與進(jìn)行了近40萬小時(shí)數(shù)據(jù)訓(xùn)練的大型模型Whisper相比，USM的錯(cuò)誤率更低，它在18個(gè)語種中的解碼錯(cuò)誤率僅有32.7%，而Whisper有40%。

在WER低于40%的情況下，USM在其支持的語言上優(yōu)于Whisper

在公開可用的數(shù)據(jù)上，與Whisper相比，USM在CORAAL（非裔美國人使用的英語）、SpeechStew和FLEURS這三個(gè)語言數(shù)據(jù)集上都顯示出了更低的單詞容錯(cuò)率。

在ASR基準(zhǔn)上比較USM（有或沒有域內(nèi)數(shù)據(jù)）和Whisper的結(jié)果。

對于語音翻譯，團(tuán)隊(duì)在CoVoST數(shù)據(jù)集上微調(diào)USM，在有限的監(jiān)督數(shù)據(jù)上實(shí)現(xiàn)了最好的性能。為了評(píng)估模型性能的廣度，他們根據(jù)資源可用性將CoVoST數(shù)據(jù)集中的語言分為高、中、低三類，并計(jì)算每個(gè)部分中的BLEU分?jǐn)?shù)（機(jī)器翻譯評(píng)價(jià)指標(biāo)），根據(jù)最終展示出的結(jié)果，USM在所有細(xì)分市場上的表現(xiàn)都優(yōu)于Whisper。

他們認(rèn)為，谷歌若想實(shí)現(xiàn)連接全球信息并使每個(gè)人都能自由訪問的愿景，USM的開發(fā)將會(huì)是關(guān)鍵的一步，USM的基礎(chǔ)模型框架和訓(xùn)練通道已經(jīng)打下了一個(gè)基礎(chǔ)，他們要做的就是在此基礎(chǔ)上將語音模型擴(kuò)展至1000種語言。

03.結(jié)語：AI突破語言障礙

助全球打破信息繭房

目前，USM已支持100多個(gè)語種，未來將持續(xù)擴(kuò)展到1000多個(gè)，屆時(shí)將會(huì)吸引到更大一部分用戶進(jìn)行體驗(yàn)，真正實(shí)現(xiàn)將信息分發(fā)到全球各個(gè)角落。

信息時(shí)代，科技進(jìn)步將會(huì)進(jìn)一步幫助各個(gè)國家地區(qū)的語言和文化突破地域的限制，很大程度上解決信息繭房帶來的困擾。

關(guān)鍵詞：

延伸閱讀:

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考并自行核實(shí)。

熱文

學(xué)好語文就選科大訊飛AI翻譯筆，多重使...
三個(gè)月內(nèi)突圍而出，TVB識(shí)貨618告捷: GM...
玩轉(zhuǎn)穗澳特色就在琶洲！2023澳門·廣州...
玩轉(zhuǎn)穗澳特色就在琶洲！2023澳門·廣州...
環(huán)球報(bào)道:[今日關(guān)注] 南昌男科醫(yī)院男科...
環(huán)球報(bào)道:[今日關(guān)注] 南昌男科醫(yī)院男科...
錦繡良緣
vivo手機(jī)屏下的按鍵突然沒了怎么辦|天天...
vivo手機(jī)屏下的按鍵突然沒了怎么辦|天天...
證監(jiān)會(huì)立案！此前剛遭上交所紀(jì)律處分！-...
證監(jiān)會(huì)立案！此前剛遭上交所紀(jì)律處分！-...
志愿者化身“移動(dòng)拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關(guān)于深圳...
深圳中國國際旅行社有限公司（關(guān)于深圳...
天天即時(shí)：欠了信用卡1萬如何申請延長分期
共話中國經(jīng)濟(jì)新機(jī)遇丨綜述：中荷經(jīng)貿(mào)人...
共話中國經(jīng)濟(jì)新機(jī)遇丨綜述：中荷經(jīng)貿(mào)人...
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)...
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)...
樹欲靜風(fēng)而不止的意思_樹欲靜風(fēng)不止什么...
樹欲靜風(fēng)而不止的意思_樹欲靜風(fēng)不止什么...
手扶梯_關(guān)于手扶梯的介紹
天天觀點(diǎn)：京津冀及山東多地超過40℃ 1...
天天觀點(diǎn)：京津冀及山東多地超過40℃ 1...
當(dāng)前速看：大摩：維持MP Materials(MP.US)評(píng)級(jí)
當(dāng)前速看：大摩：維持MP Materials(MP.US)評(píng)級(jí)
獨(dú)臂背山工穿梭懸崖絕壁，運(yùn)125斤重的一...
獨(dú)臂背山工穿梭懸崖絕壁，運(yùn)125斤重的一...
長城MV | 團(tuán)結(jié)，就是力量！
世界滾動(dòng):鎮(zhèn)江中國獨(dú)角獸企業(yè)數(shù)量全國排...
世界滾動(dòng):鎮(zhèn)江中國獨(dú)角獸企業(yè)數(shù)量全國排...
世界播報(bào):新疆挖掘南疆特色產(chǎn)業(yè)潛力
世界播報(bào):新疆挖掘南疆特色產(chǎn)業(yè)潛力
欠了信用卡11年沒還，不還產(chǎn)生什么后果_...
欠了信用卡11年沒還，不還產(chǎn)生什么后果_...
天天精選！小區(qū)便利店怎么選擇位置
我的世界自動(dòng)門感應(yīng)門（我的世界自動(dòng)感...
我的世界自動(dòng)門感應(yīng)門（我的世界自動(dòng)感...
她曾經(jīng)在23歲時(shí)走紅，卻被身高限制戲路...
她曾經(jīng)在23歲時(shí)走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點(diǎn)快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點(diǎn)：離婚二審撫養(yǎng)權(quán)怎么判
頭條焦點(diǎn)：離婚二審撫養(yǎng)權(quán)怎么判
世界最新：杭州民辦東方中學(xué)教師待遇_杭...
世界最新：杭州民辦東方中學(xué)教師待遇_杭...
【天天播資訊】國際油價(jià)21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環(huán)球速讀：瘋狂！散戶大買15億，美股空...
環(huán)球速讀：瘋狂！散戶大買15億，美股空...
世界動(dòng)態(tài):首屆京津冀生態(tài)產(chǎn)業(yè)創(chuàng)新發(fā)展大...
世界報(bào)道:運(yùn)動(dòng)員該如何應(yīng)對“飯圈文化”...
世界報(bào)道:運(yùn)動(dòng)員該如何應(yīng)對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區(qū)服務(wù)
港交所紐約辦事處開幕　提升北美地區(qū)服務(wù)
韓媒：韓國環(huán)境部已批準(zhǔn)“薩德”基地環(huán)...
看圖學(xué)習(xí)｜中華優(yōu)秀傳統(tǒng)文化是中華民族...
看圖學(xué)習(xí)｜中華優(yōu)秀傳統(tǒng)文化是中華民族...
當(dāng)前觀察：郴電國際郴州分公司營業(yè)班獲...
當(dāng)前觀察：郴電國際郴州分公司營業(yè)班獲...
天天新動(dòng)態(tài)：三亞22日10時(shí)起發(fā)放一批旅...
呂梁市“三夏”麥?zhǔn)瞻才耪{(diào)度會(huì)要求：顆...
呂梁市“三夏”麥?zhǔn)瞻才耪{(diào)度會(huì)要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報(bào)刊文:為什么印度難以...
全球要聞：光明日報(bào)刊文:為什么印度難以...
紀(jì)檢監(jiān)察機(jī)關(guān)統(tǒng)籌用好基層監(jiān)督力量精...
紀(jì)檢監(jiān)察機(jī)關(guān)統(tǒng)籌用好基層監(jiān)督力量精...
總投資約36億元，惠州新材料產(chǎn)業(yè)園再引5...
觀焦點(diǎn)：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評(píng)下午茶之俠探...
俠探杰克第一季豆瓣（影評(píng)下午茶之俠探...
將于7月內(nèi)上市新款榮威i5官圖發(fā)布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構(gòu)建和諧勞動(dòng)...
【天天播資訊】琿春市積極構(gòu)建和諧勞動(dòng)...
三終端上人難，邀約棘手。
GDR發(fā)行熱度持續(xù)上升多家龍頭企業(yè)扎堆...
GDR發(fā)行熱度持續(xù)上升多家龍頭企業(yè)扎堆...
國寶“體驗(yàn)”端午文化當(dāng)前焦點(diǎn)
國寶“體驗(yàn)”端午文化當(dāng)前焦點(diǎn)
【環(huán)球報(bào)資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區(qū)別_近親屬|(zhì)當(dāng)前看點(diǎn)
近親屬和親屬的區(qū)別_近親屬|(zhì)當(dāng)前看點(diǎn)
當(dāng)前視訊！二建報(bào)名時(shí)間2021年_2021年二...
當(dāng)前視訊！二建報(bào)名時(shí)間2021年_2021年二...
焦點(diǎn)熱訊:華中科技大學(xué)地址在哪個(gè)城市_...

科技

· 2023最建議買的二手手機(jī)推薦？2023最建議買
· 為什么懂手機(jī)的人都不用華為？為什么很多人
· 華為oppo手機(jī)同等價(jià)位哪個(gè)好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機(jī)好還
· oppo萬能密碼6位數(shù)解鎖是什么？OPPO手機(jī)的
· 如何打開oppo手機(jī)鎖屏密碼？oppo手機(jī)密碼鎖
· OPPO手機(jī)怎么總是自己跳轉(zhuǎn)快應(yīng)用？OPPO打開
· oppo手機(jī)像中毒似的彈出廣告？oppo手機(jī)老是
· oppo手機(jī)熱點(diǎn)資訊如何徹底關(guān)掉？oppo手機(jī)老
· oppo手機(jī)開發(fā)者選項(xiàng)在哪里能打開？oppo手機(jī)

熱文

環(huán)球報(bào)道:[今日關(guān)注] 南昌男科醫(yī)院男科收費(fèi)高嗎排名公開
證監(jiān)會(huì)立案！此前剛遭上交所紀(jì)律處分！-觀焦點(diǎn)
深圳中國國際旅行社有限公司（關(guān)于深圳中國國際旅行社有限公司介紹）|報(bào)道
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)起基金6月27日分紅
樹欲靜風(fēng)而不止的意思_樹欲靜風(fēng)不止什么意思是什么
當(dāng)前速看：大摩：維持MP Materials(MP.US)評(píng)級(jí)
獨(dú)臂背山工穿梭懸崖絕壁，運(yùn)125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報(bào):新疆挖掘南疆特色產(chǎn)業(yè)潛力
欠了信用卡11年沒還，不還產(chǎn)生什么后果_全球最資訊
她曾經(jīng)在23歲時(shí)走紅，卻被身高限制戲路，老公也是優(yōu)秀的演員！|每日熱文

網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱

中國網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像