他在現(xiàn)場只是播放了一張的演講內(nèi)容。
竟引得眾人不約而同,紛紛高舉手機拍照,會場更是掌聲不斷。他叫錢軍,很多人熟知這個名字,是因為他曾在AMD擔任高管一職長達近10年時間。
在此期間,錢軍還帶領團隊設計量產(chǎn)了兩個業(yè)界第一:
第一顆7nm圖形處理器
第一顆7nm GPGPU架構的AI芯片
而剛才現(xiàn)場之所以會有那般反響,正是因為錢軍在2018年所成立的瀚博半導體,搞了一個“大動作”——
預覽了國產(chǎn)7nm云端GPU芯片,SG100。據(jù)了解,SG100是集渲染、AI和視頻于一體的全功能GPU,在吞吐、延時等性能中具備世界領先水平。
至于它所要發(fā)力的領域,正是云游戲、云手機、云桌面、云計算等元宇宙關鍵性應用場景。
例如在現(xiàn)場,錢軍便演示了在SG100加持下視頻渲染的效果對比:
不難看出,在色彩、幀率、細節(jié)、光照等方面,都是要優(yōu)于世面主流GPU芯片。
并且隨著SG100的預覽,也就意味著國產(chǎn)GPU玩家隊伍,又正式添加一位新成員。
但縱觀整場發(fā)布會,“業(yè)界領先”、“性能數(shù)倍”等標簽顯得格外醒目。
之前以“擁有18年以上高端芯片設計和量產(chǎn)經(jīng)驗”先聲奪人的瀚博半導體,再次來到聚光燈下。
適應多樣化計算需求:芯片、計算架構、軟件平臺
在錢軍看來,芯片及其衍生的產(chǎn)品,從來不是“單打獨斗”的存在。
相反,他認為芯片性能的強大,應當是源自底層計算架構。
為此,瀚博半導體在現(xiàn)場率先亮出的便是自研的統(tǒng)一計算架構——VUCA(Vastai Unified Compute Architecture)。錢軍表示:
我們用了中臺的概念。核心的IP就類似中臺,然后上層有統(tǒng)一的開發(fā)平臺。可以根據(jù)產(chǎn)品和規(guī)劃和側重點,設計和推出更符合市場需求的產(chǎn)品。而這張全景圖,可以說是貫穿了瀚博半導體的多項核心技術。
例如架構的底層整合了多款高性能計算引擎,包括高性能AI引擎、可編程的矢量計算引擎,還有硬件化視頻解碼、具備渲染能力的顯示核心等。
在這些計算引擎之上,擁有一個高效統(tǒng)一的存儲管理、一致性的接口和低延遲的鏈接。
之所以如此設計,是因為芯片及其產(chǎn)品單單有算力是不夠的,接口、數(shù)據(jù)等因素依舊會成為制約算力效能的羈絆。
除此之外,要想讓算力資源效能更大化,它還需要被池化、在云端被集中;因此,瀚博半導體的統(tǒng)一計算架構還設置了完整的虛擬化功能。
而配合的統(tǒng)一的底層軟件設計、模塊化的上層計算算子庫和功能模塊,則會讓芯片及產(chǎn)品在面對不同客戶的需求時,變得更加靈活。
整體而言:
瀚博統(tǒng)一架構讓計算密集型的AI、視頻、渲染任務性能得到最大化硬件加速,同時端到端縮小延時,一體化助力云端實時圖形渲染、AI增強處理、視頻編解碼等需求。
也正是基于這樣的統(tǒng)一架構,錢軍在現(xiàn)場發(fā)布了瀚博半導體的更多新品。
數(shù)據(jù)中心推理加速卡——載天VA10
載天VA10是一款用于數(shù)據(jù)中心的高性能AI計算、推理的加速卡。
從性能角度來看,載天VA10所擁有的最大亮點,在于INT8峰值算力達400TOPS!
這一數(shù)值便一舉刷新業(yè)界紀錄。但若是僅憑借算力峰值來判斷加速卡的強弱,那還是有一些片面,需要的更多的綜合性比較。
比如要考慮“算力密度”,算力密度可以從兩個維度來講。
第一是按芯片單元面積將算力平均下來,比如一平方毫米芯片的算力如何。另外一個,是每單元瓦的算力,也即每瓦功耗能夠提供多大的算力。
例如載天VA10的設計功耗為150W,而在同等條件之下:
最高吞吐率是主流GPU的2倍以上
最高性能延時是主流GPU的6%
不僅如此,在低延時場景(低于4毫秒的YoloV3檢測算法場景)下,載天VA10的推理性能,更達到同功耗市場主流GPU的3倍以上。也正是得益于載天VA10的如此性能,它便非常適合“上崗”一些需要高實時性的云端AI場景,例如直播視頻增強、智慧交通管理、實時語義理解等。
以智能ROI優(yōu)化為例,載天VA10的效果如下:不難看出,無論是實時處理效率,亦或是色彩增強效果,載天VA10都是肉眼可見的更勝一籌。
邊緣AI推理加速卡——載天VE1
除了數(shù)據(jù)中心端,瀚博半導體聚焦在邊緣端同樣發(fā)布了新品,載天VE1。不同于載天VA10,載天VE1更側重的發(fā)力點,是在那些大算力的需求場景。
例如車路協(xié)同、低速自動駕駛(無人配送車、港口物流園區(qū)無人駕駛的車輛)等。
而載天VE1之所以能夠“勝任”于這些場景,還是得益于它自身的性能:
在 40~65瓦功耗下,INT8峰值算力達100TOPS
吞吐率達到主流GPU的2倍,但延時不到主流GPU的5%軟件平臺VastStream
但也誠如剛才所言,硬件性能上的“單打獨斗”并不能將其功力全程發(fā)揮出來。
因此,瀚博半導體對此的破解之道,便是“軟硬一體”——VastStream。據(jù)了解,VastStream軟件平臺,可以加速各類AI應用的部署。
例如計算機視覺、視頻處理、自然語言處理、搜索與推薦、算子自定義擴展等。
而其全新軟件組件,還提供了系統(tǒng)管理等三大管理工具,方便客戶部署。
與此同時,VastStream的基礎軟件棧功能也變得更加豐富。
主要特性包括統(tǒng)一接口、靈活調度、通用AI計算、多路高效視頻轉碼+AI增強、易編程快遷移、工具鏈完備等。
至此,不難看出瀚博半導體已經(jīng)出現(xiàn)一條清晰可見的業(yè)務線:
芯片、推理加速卡、一體機的硬件產(chǎn)品,再到軟件整合的系統(tǒng)解決方案。
那么對于這位新晉的“GPU玩家”來說,如今也到了回答這個問題的時候:瀚博要走怎樣的一條“GPU之路”?
對于這個問題,錢軍其實在現(xiàn)場已經(jīng)給出了答案:
我們致力于做全球領先的綜合算力平臺。而這次預覽的GPU,可以說僅是瀚博半導體完整拼圖中的重要一塊。
這一點,從瀚博半導體的發(fā)展路徑中便可以了解一二。
錢軍在創(chuàng)立瀚博半導體之初,雖然有著數(shù)十年深耕GPU的團隊,但他們卻沒有直接切入到造GPU的賽道。
選擇的切入點反倒是“AI+視頻”,而且這其中的AI更多的是在推理應用側。
之所以如此,是因為錢軍認為視頻就像一枚硬幣,有著2個維度。
對于已經(jīng)產(chǎn)生的視頻,是一個計算機處理的問題,包括增強、分析等等。
而對于還未出現(xiàn)的視頻,那就是一個像素生產(chǎn)的問題,包括渲染等工作。
雖然此前瀚博半導體從未官宣過類似SG100這樣的GPU的消息,但與GPU相關的能力其實已經(jīng)是嵌套在了此前的產(chǎn)品中,只是并未對外宣傳。此舉背后的邏輯,就是讓產(chǎn)品先用起來,然后再打造一顆獨立的高性能GPU。
加之已有的推理卡、軟硬件等,便可把“綜合算力平臺”的拼圖拼完整了。
然而把“國產(chǎn)GPU”這條線鋪開來看,在瀚博半導體之前,已然是一副勢頭兇猛的態(tài)勢。
那么在這樣的大環(huán)境之下,瀚博半導體正式進入“國產(chǎn)GPU玩家”之列,其所持的殺手锏又將是什么?
對此,錢軍表示:
重要的不是只有一個芯片、一個“硬疙瘩”;更重要的是一個軟件的生態(tài)和合作的生態(tài)。
唯有做到高性能、低成本,然后用起來才是硬道理。
One More Thing
瀚博半導體此次正式步入GPU市場,一個非常醒目的標簽,便是團隊擁有在AMD數(shù)年的造芯經(jīng)驗。
而在2020年成立的摩爾線程,其創(chuàng)始人也曾在GPU巨頭英偉達任職長達15年。
兩個GPU巨頭之間長期的“對壘”,已然是人盡皆知的事情。
但現(xiàn)在,從英偉達和AMD出走的人,在國產(chǎn)GPU這條道路上再度“交鋒”。
網(wǎng)站首頁 |網(wǎng)站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
中國網(wǎng)絡消費網(wǎng) 版權所有 未經(jīng)書面授權 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com