網(wǎng)絡(luò)消費(fèi)網(wǎng) >  科技 > > 正文
焦點(diǎn)速讀:大數(shù)據(jù)已死!從業(yè)10年老哥爆文抨擊:這套唬不住客戶了
時(shí)間:2023-02-14 13:23:08

“大數(shù)據(jù)已死?!?/strong>

說(shuō)這話的,正是來(lái)自Google十年員工,數(shù)據(jù)分析產(chǎn)品BigQuery創(chuàng)始成員之一,Jordan Tigani。

在最新發(fā)布的一篇博文中,他表示——


(相關(guān)資料圖)

大數(shù)據(jù)概念在十多年前開(kāi)始興起,時(shí)至今日,銷售們?nèi)杂谩昂A繑?shù)據(jù)帶來(lái)指數(shù)級(jí)增長(zhǎng)曲線”說(shuō)法,來(lái)勾起(唬?。┛蛻魹橄嚓P(guān)服務(wù)買單的欲望,否則就將被數(shù)字時(shí)代拋棄。作者自己也曾是其中之一。

但現(xiàn)在,Jordan Tigani不僅認(rèn)為這種說(shuō)法行不通,還稱——“數(shù)據(jù)大小根本不是問(wèn)題所在?!?/p>

那么問(wèn)題在哪?他認(rèn)為,我們已無(wú)需擔(dān)心數(shù)據(jù)大小,而應(yīng)專注于如何使用數(shù)據(jù)來(lái)做出更好的決策。

如此言論之下,也吸引了不少業(yè)內(nèi)人士的圍觀和熱議。

他的上述觀點(diǎn)有何依據(jù)?

不妨從證明過(guò)程看起。

值得注意的是,作者表示,證明過(guò)程中相關(guān)圖表曲線并不是嚴(yán)格參考了數(shù)據(jù),而是憑記憶手繪的,這位資深從業(yè)者強(qiáng)調(diào)——重要的是曲線形狀趨勢(shì),而非確切數(shù)值。

“恐嚇”客戶的話術(shù)出問(wèn)題了

Jordan Tigani先從一張PPT聊開(kāi)去。

這是一條數(shù)據(jù)量隨時(shí)間增長(zhǎng),呈現(xiàn)指數(shù)級(jí)增長(zhǎng)的曲線,在過(guò)去十年,幾乎每個(gè)大數(shù)據(jù)產(chǎn)品推銷都從該曲線開(kāi)啟。他曾就職的谷歌、SingleStore都不例外。

亮出曲線后,銷售們會(huì)順勢(shì)鼓吹產(chǎn)品,告訴客戶——大數(shù)據(jù)時(shí)代來(lái)了!你需要我手里的產(chǎn)品服務(wù)!

但Jordan Tigani認(rèn)為,多年來(lái)的事實(shí)已證明,處理數(shù)據(jù)的老方法已經(jīng)行不通了,且大多數(shù)應(yīng)用程序也不需要處理大量數(shù)據(jù)。

一個(gè)佐證是近些年傳統(tǒng)架構(gòu)的數(shù)據(jù)管理系統(tǒng)復(fù)興,諸如SQLite、Postgres、MySQL都增長(zhǎng)強(qiáng)勁,與之對(duì)比,“NoSQL”甚至“NewSQL”增長(zhǎng)卻停滯不前。

一個(gè)明顯例子是MongoDB,它是排名最高的NoSQL類數(shù)據(jù)庫(kù),也同樣是最火的橫向擴(kuò)展類數(shù)據(jù)庫(kù),此前幾年MongoDB增長(zhǎng)勢(shì)頭強(qiáng)勁,但最近規(guī)模卻小幅下降,且與MySQL等主流數(shù)據(jù)庫(kù)仍存差距。

Jordan Tigani認(rèn)為——如果大數(shù)據(jù)真是未來(lái),那情況應(yīng)該不一樣。

鼓吹大數(shù)據(jù)時(shí)代就在眼前的另一個(gè)說(shuō)法是——每個(gè)人都會(huì)被產(chǎn)生的數(shù)據(jù)淹沒(méi)。

但Jordan Tigani在研究客戶中發(fā)現(xiàn)絕大多數(shù)客戶總數(shù)據(jù)存儲(chǔ)量不超過(guò)1TB,即便大型企業(yè),其數(shù)據(jù)量級(jí)也soso。

根據(jù)他的從業(yè)經(jīng)驗(yàn),所服務(wù)的最大客戶數(shù)據(jù)存儲(chǔ)量是第二大客戶的2倍,第二大客戶又是第三位的2倍。

這樣一來(lái),客戶數(shù)據(jù)大小與數(shù)量服從冪律分布。

只有極少數(shù)客戶擁有PB級(jí)數(shù)據(jù),成千上萬(wàn)客戶每月存儲(chǔ)費(fèi)用不超過(guò)10美元,而他們服務(wù)客戶存儲(chǔ)資源使用的中位數(shù),連100GB都不到。

不僅作者本人這么認(rèn)為,Gartner、Forrester等機(jī)構(gòu)分析師及其他從業(yè)者也表示,大部分企業(yè)的數(shù)據(jù)庫(kù)量級(jí)都小于1TB,且100GB是常態(tài)。

拿一家超千名客戶的公司舉例,即便每個(gè)客戶每天下一個(gè)訂單,里面包含100項(xiàng)數(shù)據(jù),每天生成數(shù)據(jù)仍小于1字節(jié),三年后是1GB,而要達(dá)到1TB,這家公司得做幾千年生意。

另一個(gè)例子是之前作者接觸了一家E輪獨(dú)角獸公司,且還在快速成長(zhǎng)中,但即便這樣,他們的財(cái)務(wù)數(shù)據(jù)、客戶數(shù)據(jù)、營(yíng)銷跟蹤數(shù)據(jù)及服務(wù)日志加起來(lái),也只有幾GB。

就這,能叫大數(shù)據(jù)?

還不算完,即便看“已有”部分,也有問(wèn)題。

由于現(xiàn)代云平臺(tái)將存儲(chǔ)與計(jì)算分開(kāi),兩部分利用量級(jí)也有很大差距,即——數(shù)據(jù)存儲(chǔ)增長(zhǎng)速度,遠(yuǎn)大于計(jì)算資源需求增速。

具體來(lái)說(shuō),企業(yè)數(shù)據(jù)的存儲(chǔ)量隨時(shí)間推移,肯定是線性增加的,但大部分分析計(jì)算需求是針對(duì)近期數(shù)據(jù),不可能一遍又一遍反復(fù)讀取舊數(shù)據(jù)。因此,計(jì)算需求不會(huì)同步迅速增加。

Jordan Tigani的一個(gè)客戶就是這樣。

作為全球頭部零售商,他們?cè)?00TB本地?cái)?shù)據(jù),遷移到云上后,數(shù)據(jù)量變成了30PB,增加了300倍,如果計(jì)算資源需求也隨之拉滿,那他們?cè)跀?shù)據(jù)分析上的花費(fèi)將達(dá)幾十億美元,但事實(shí)上,他們只花了很小一筆費(fèi)用。

作者認(rèn)為,大量計(jì)算服務(wù)不被需要,也就意味著前沿架構(gòu)不太有必要,甚至分布式處理也Duck不必。

與之類似,分析數(shù)據(jù)的工作負(fù)載也遠(yuǎn)小于數(shù)據(jù)體量。

多數(shù)時(shí)候,人們往往只會(huì)查詢前1小時(shí)、前1天或上周數(shù)據(jù),較小的表會(huì)被頻繁查詢,但大表就不一定了。

在作者本人BigQuery工作經(jīng)歷中,數(shù)據(jù)量巨大的客戶幾乎從不查詢大量數(shù)據(jù),除非他們正在生成一些報(bào)告。

這種需求,也不要求性能優(yōu)先,且僅是企業(yè)一周幾十萬(wàn)個(gè)查詢中的極少數(shù)。

正如下圖,90%查詢?nèi)蝿?wù)涉及的數(shù)據(jù)量級(jí)不超過(guò)100MB,僅1%超過(guò)10GB,且即便查詢巨型表,數(shù)據(jù)庫(kù)也可通過(guò)一定處理,減少計(jì)算量和延遲。

一個(gè)側(cè)面佐證是——業(yè)內(nèi)符合原本“大數(shù)據(jù)”定義的產(chǎn)品也在變少。

在當(dāng)初,大數(shù)據(jù)的定義之一是“任何單機(jī)無(wú)法處理相關(guān)任務(wù)/場(chǎng)景需求”,比如00年代,數(shù)據(jù)工作負(fù)載對(duì)于單個(gè)商業(yè)計(jì)算機(jī)來(lái)說(shuō),帶不動(dòng)是常態(tài)。

但今天,一個(gè)AWS的標(biāo)準(zhǔn)實(shí)例所用到的物理服務(wù)器包含了64核及256GB RAM,如果為優(yōu)化實(shí)例再多掏一點(diǎn)錢(qián),又能在原基礎(chǔ)上增加2個(gè)數(shù)量級(jí)RAM,這幾乎覆蓋所有工作負(fù)載需求。

既然大數(shù)據(jù)時(shí)代結(jié)束了,那是不是說(shuō),相關(guān)從業(yè)者要下崗了?

作者也提出了自己的看法——

結(jié)束了,但沒(méi)完全結(jié)束。

具體來(lái)說(shuō),作者認(rèn)為,大數(shù)據(jù)的另一重內(nèi)涵是“當(dāng)數(shù)據(jù)保存的支出小于其挖掘價(jià)值,那就應(yīng)該放棄”,因而,我們需要判定哪些數(shù)據(jù)需要及時(shí)清除,以及背后的原因,這將成為數(shù)據(jù)工作的重要部分。

這當(dāng)中,也包括不同時(shí)期同一數(shù)據(jù)以不同字段存儲(chǔ),需要有人來(lái)加以維護(hù)和留有記錄。

此外,基于相關(guān)監(jiān)管規(guī)定,很多類型數(shù)據(jù)(比如涉及個(gè)人隱私的電話號(hào)碼)也需要定期清除。

再有,便是一些公司需要定期判斷哪些舊數(shù)據(jù)要清理,以避免未來(lái)可能的法律風(fēng)險(xiǎn)。(手動(dòng)狗頭)

ChatGPT老板有不同看法

對(duì)于Jordan Tigani上述觀點(diǎn)及論證,有網(wǎng)友表示支持,還聯(lián)想到之前類似的工作經(jīng)歷。

也有網(wǎng)友表示:

當(dāng)XX已死,說(shuō)明它真實(shí)被認(rèn)可的地方會(huì)被保留下來(lái)。

值得一提的是,并非所有人都贊同作者的觀點(diǎn)。

尤其鑒于“XX已死”將話說(shuō)得太滿,有網(wǎng)友認(rèn)為:

在近期AI大火之際,判決AI所依賴的大數(shù)據(jù)已死,也是挺敢說(shuō)。

當(dāng)紅炸子雞ChatGPT背后老板Sam Altman,此前在舊金山一次技術(shù)活動(dòng)中,也談過(guò)對(duì)大數(shù)據(jù)的看法,Sam認(rèn)為——

AI研究領(lǐng)域取得令人印象深刻的進(jìn)步,不僅依靠海量數(shù)據(jù),同時(shí)更需要海量的計(jì)算。

上述觀點(diǎn)不僅強(qiáng)調(diào)了海量數(shù)據(jù)重要性,對(duì)比Jordan Tigani所認(rèn)為的“重存儲(chǔ)輕計(jì)算”看法,正好相反。

另一個(gè)不同聲音來(lái)自一位名叫Lewis Gavin的大數(shù)據(jù)與軟件工程師,此前他曾在Medium上發(fā)文,主題也是圍繞“大數(shù)據(jù)是否消亡”

他認(rèn)為:

大數(shù)據(jù)不會(huì)死,只會(huì)變得更重要。

所給出理由是:一方面依據(jù)是全球生成的數(shù)據(jù)總量仍在加速增長(zhǎng),且細(xì)分領(lǐng)域中,處理“大數(shù)據(jù)”正成為常態(tài)。

基于此,Lewis Gavin認(rèn)為——所謂“大數(shù)據(jù)死亡”,只是營(yíng)銷說(shuō)法的消亡,但Big Data處理技術(shù)和應(yīng)用仍存在,且它會(huì)成為習(xí)以為常的現(xiàn)象。

IDC于1月24日發(fā)布的一篇預(yù)測(cè)證明了大數(shù)據(jù)市場(chǎng)仍在增長(zhǎng),內(nèi)容指出——

未來(lái)幾年,全球大數(shù)據(jù)和分析軟件市場(chǎng)將實(shí)現(xiàn)強(qiáng)勁增長(zhǎng),且具體到該板塊各細(xì)分領(lǐng)域,未來(lái)幾年增長(zhǎng)率均為雙位數(shù)。

有意思的是,有網(wǎng)友提出“大數(shù)據(jù)的死亡”并不是個(gè)技術(shù)話題。

他表示:數(shù)據(jù)之所以沒(méi)發(fā)揮價(jià)值,其實(shí)是商界精英們往往忽略數(shù)據(jù)內(nèi)蘊(yùn)藏的結(jié)論。

另一位網(wǎng)友也表示贊同,還稱:

自己曾開(kāi)玩笑,數(shù)據(jù)科學(xué)家的工作其實(shí)不是搞分析,而是為高管們前瞻性觀點(diǎn)提供有力證明。(手動(dòng)狗頭)

關(guān)鍵詞:

版權(quán)聲明:
    凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來(lái)源:網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考并自行核實(shí)。
熱文

網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
 

中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書(shū)面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號(hào):京ICP備2022016840號(hào)-15

營(yíng)業(yè)執(zhí)照公示信息