“大數(shù)據(jù)已死,。”
說這話的,正是來自Google十年員工,,數(shù)據(jù)分析產(chǎn)品BigQuery創(chuàng)始成員之一,,Jordan Tigani。
在最新發(fā)布的一篇博文中,,他表示——
大數(shù)據(jù)概念在十多年前開始興起,時至今日,,銷售們?nèi)杂?ldquo;海量數(shù)據(jù)帶來指數(shù)級增長曲線”說法,,來勾起(唬住)客戶為相關(guān)服務(wù)買單的欲望,,否則就將被數(shù)字時代拋棄,。作者自己也曾是其中之一。
但現(xiàn)在,,Jordan Tigani不僅認(rèn)為這種說法行不通,,還稱——“數(shù)據(jù)大小根本不是問題所在。”
那么問題在哪,?他認(rèn)為,,我們已無需擔(dān)心數(shù)據(jù)大小,而應(yīng)專注于如何使用數(shù)據(jù)來做出更好的決策,。
如此言論之下,,也吸引了不少業(yè)內(nèi)人士的圍觀和熱議。
他的上述觀點(diǎn)有何依據(jù),?
不妨從證明過程看起。
值得注意的是,,作者表示,,證明過程中相關(guān)圖表曲線并不是嚴(yán)格參考了數(shù)據(jù),而是憑記憶手繪的,,這位資深從業(yè)者強(qiáng)調(diào)——重要的是曲線形狀趨勢,,而非確切數(shù)值。
“恐嚇”客戶的話術(shù)出問題了
Jordan Tigani先從一張PPT聊開去,。
這是一條數(shù)據(jù)量隨時間增長,呈現(xiàn)指數(shù)級增長的曲線,在過去十年,,幾乎每個大數(shù)據(jù)產(chǎn)品推銷都從該曲線開啟,。他曾就職的谷歌、SingleStore都不例外,。
亮出曲線后,銷售們會順勢鼓吹產(chǎn)品,,告訴客戶——大數(shù)據(jù)時代來了,!你需要我手里的產(chǎn)品服務(wù)!
但Jordan Tigani認(rèn)為,,多年來的事實已證明,,處理數(shù)據(jù)的老方法已經(jīng)行不通了,且大多數(shù)應(yīng)用程序也不需要處理大量數(shù)據(jù),。
一個佐證是近些年傳統(tǒng)架構(gòu)的數(shù)據(jù)管理系統(tǒng)復(fù)興,,諸如SQLite、Postgres,、MySQL都增長強(qiáng)勁,,與之對比,“NoSQL”甚至“NewSQL”增長卻停滯不前,。
一個明顯例子是MongoDB,,它是排名最高的NoSQL類數(shù)據(jù)庫,也同樣是最火的橫向擴(kuò)展類數(shù)據(jù)庫,,此前幾年MongoDB增長勢頭強(qiáng)勁,,但最近規(guī)模卻小幅下降,且與MySQL等主流數(shù)據(jù)庫仍存差距,。
Jordan Tigani認(rèn)為——如果大數(shù)據(jù)真是未來,,那情況應(yīng)該不一樣。
鼓吹大數(shù)據(jù)時代就在眼前的另一個說法是——每個人都會被產(chǎn)生的數(shù)據(jù)淹沒,。
但Jordan Tigani在研究客戶中發(fā)現(xiàn)絕大多數(shù)客戶總數(shù)據(jù)存儲量不超過1TB,即便大型企業(yè),,其數(shù)據(jù)量級也soso,。
根據(jù)他的從業(yè)經(jīng)驗,所服務(wù)的最大客戶數(shù)據(jù)存儲量是第二大客戶的2倍,,第二大客戶又是第三位的2倍,。
這樣一來,客戶數(shù)據(jù)大小與數(shù)量服從冪律分布,。
只有極少數(shù)客戶擁有PB級數(shù)據(jù),,成千上萬客戶每月存儲費(fèi)用不超過10美元,,而他們服務(wù)客戶存儲資源使用的中位數(shù),連100GB都不到,。
不僅作者本人這么認(rèn)為,Gartner,、Forrester等機(jī)構(gòu)分析師及其他從業(yè)者也表示,,大部分企業(yè)的數(shù)據(jù)庫量級都小于1TB,且100GB是常態(tài),。
拿一家超千名客戶的公司舉例,,即便每個客戶每天下一個訂單,里面包含100項數(shù)據(jù),,每天生成數(shù)據(jù)仍小于1字節(jié),,三年后是1GB,而要達(dá)到1TB,,這家公司得做幾千年生意,。
另一個例子是之前作者接觸了一家E輪獨(dú)角獸公司,且還在快速成長中,,但即便這樣,,他們的財務(wù)數(shù)據(jù)、客戶數(shù)據(jù),、營銷跟蹤數(shù)據(jù)及服務(wù)日志加起來,,也只有幾GB。
就這,,能叫大數(shù)據(jù),?
還不算完,,即便看“已有”部分,,也有問題。
由于現(xiàn)代云平臺將存儲與計算分開,,兩部分利用量級也有很大差距,,即——數(shù)據(jù)存儲增長速度,遠(yuǎn)大于計算資源需求增速,。
具體來說,,企業(yè)數(shù)據(jù)的存儲量隨時間推移,肯定是線性增加的,,但大部分分析計算需求是針對近期數(shù)據(jù),,不可能一遍又一遍反復(fù)讀取舊數(shù)據(jù)。因此,,計算需求不會同步迅速增加,。
Jordan Tigani的一個客戶就是這樣。
作為全球頭部零售商,,他們原有100TB本地數(shù)據(jù),,遷移到云上后,數(shù)據(jù)量變成了30PB,,增加了300倍,如果計算資源需求也隨之拉滿,,那他們在數(shù)據(jù)分析上的花費(fèi)將達(dá)幾十億美元,,但事實上,他們只花了很小一筆費(fèi)用,。
作者認(rèn)為,,大量計算服務(wù)不被需要,也就意味著前沿架構(gòu)不太有必要,,甚至分布式處理也Duck不必,。
與之類似,,分析數(shù)據(jù)的工作負(fù)載也遠(yuǎn)小于數(shù)據(jù)體量,。
多數(shù)時候,人們往往只會查詢前1小時,、前1天或上周數(shù)據(jù),,較小的表會被頻繁查詢,但大表就不一定了,。
在作者本人BigQuery工作經(jīng)歷中,,數(shù)據(jù)量巨大的客戶幾乎從不查詢大量數(shù)據(jù),除非他們正在生成一些報告,。
這種需求,,也不要求性能優(yōu)先,且僅是企業(yè)一周幾十萬個查詢中的極少數(shù),。
正如下圖,,90%查詢?nèi)蝿?wù)涉及的數(shù)據(jù)量級不超過100MB,僅1%超過10GB,,且即便查詢巨型表,,數(shù)據(jù)庫也可通過一定處理,減少計算量和延遲,。
一個側(cè)面佐證是——業(yè)內(nèi)符合原本“大數(shù)據(jù)”定義的產(chǎn)品也在變少。
在當(dāng)初,,大數(shù)據(jù)的定義之一是“任何單機(jī)無法處理相關(guān)任務(wù)/場景需求”,,比如00年代,,數(shù)據(jù)工作負(fù)載對于單個商業(yè)計算機(jī)來說,帶不動是常態(tài),。
但今天,,一個AWS的標(biāo)準(zhǔn)實例所用到的物理服務(wù)器包含了64核及256GB RAM,如果為優(yōu)化實例再多掏一點(diǎn)錢,,又能在原基礎(chǔ)上增加2個數(shù)量級RAM,,這幾乎覆蓋所有工作負(fù)載需求。
既然大數(shù)據(jù)時代結(jié)束了,,那是不是說,,相關(guān)從業(yè)者要下崗了?
作者也提出了自己的看法——
結(jié)束了,,但沒完全結(jié)束,。
具體來說,作者認(rèn)為,,大數(shù)據(jù)的另一重內(nèi)涵是“當(dāng)數(shù)據(jù)保存的支出小于其挖掘價值,,那就應(yīng)該放棄”,因而,,我們需要判定哪些數(shù)據(jù)需要及時清除,,以及背后的原因,這將成為數(shù)據(jù)工作的重要部分,。
這當(dāng)中,,也包括不同時期同一數(shù)據(jù)以不同字段存儲,需要有人來加以維護(hù)和留有記錄,。
此外,,基于相關(guān)監(jiān)管規(guī)定,很多類型數(shù)據(jù)(比如涉及個人隱私的電話號碼)也需要定期清除,。
再有,,便是一些公司需要定期判斷哪些舊數(shù)據(jù)要清理,以避免未來可能的法律風(fēng)險,。(手動狗頭)
ChatGPT老板有不同看法
對于Jordan Tigani上述觀點(diǎn)及論證,,有網(wǎng)友表示支持,還聯(lián)想到之前類似的工作經(jīng)歷,。
也有網(wǎng)友表示:
當(dāng)XX已死,說明它真實被認(rèn)可的地方會被保留下來,。
值得一提的是,并非所有人都贊同作者的觀點(diǎn),。
尤其鑒于“XX已死”將話說得太滿,,有網(wǎng)友認(rèn)為:
在近期AI大火之際,,判決AI所依賴的大數(shù)據(jù)已死,也是挺敢說,。
當(dāng)紅炸子雞ChatGPT背后老板Sam Altman,此前在舊金山一次技術(shù)活動中,,也談過對大數(shù)據(jù)的看法,,Sam認(rèn)為——
AI研究領(lǐng)域取得令人印象深刻的進(jìn)步,不僅依靠海量數(shù)據(jù),,同時更需要海量的計算,。
上述觀點(diǎn)不僅強(qiáng)調(diào)了海量數(shù)據(jù)重要性,對比Jordan Tigani所認(rèn)為的“重存儲輕計算”看法,,正好相反。
另一個不同聲音來自一位名叫Lewis Gavin的大數(shù)據(jù)與軟件工程師,,此前他曾在Medium上發(fā)文,,主題也是圍繞“大數(shù)據(jù)是否消亡”
他認(rèn)為:
大數(shù)據(jù)不會死,只會變得更重要,。
所給出理由是:一方面依據(jù)是全球生成的數(shù)據(jù)總量仍在加速增長,,且細(xì)分領(lǐng)域中,處理“大數(shù)據(jù)”正成為常態(tài),。
基于此,,Lewis Gavin認(rèn)為——所謂“大數(shù)據(jù)死亡”,只是營銷說法的消亡,,但Big Data處理技術(shù)和應(yīng)用仍存在,,且它會成為習(xí)以為常的現(xiàn)象。
IDC于1月24日發(fā)布的一篇預(yù)測證明了大數(shù)據(jù)市場仍在增長,,內(nèi)容指出——
未來幾年,,全球大數(shù)據(jù)和分析軟件市場將實現(xiàn)強(qiáng)勁增長,且具體到該板塊各細(xì)分領(lǐng)域,,未來幾年增長率均為雙位數(shù),。
有意思的是,,有網(wǎng)友提出“大數(shù)據(jù)的死亡”并不是個技術(shù)話題,。
他表示:數(shù)據(jù)之所以沒發(fā)揮價值,其實是商界精英們往往忽略數(shù)據(jù)內(nèi)蘊(yùn)藏的結(jié)論,。
另一位網(wǎng)友也表示贊同,還稱:
自己曾開玩笑,,數(shù)據(jù)科學(xué)家的工作其實不是搞分析,,而是為高管們前瞻性觀點(diǎn)提供有力證明,。(手動狗頭)
文章出處:量子位