前些日子我們發佈了《關於 Big Data 的兩大謬誤與六種必備人員》得到不錯的迴響,而作者再提出了兩點關於 big data 的謬思,以下以第一人稱撰寫。
大數據有許多謬誤,在很多人以訛傳訛的情況下,造成了很多基本概念的偏差。我們接上一篇文章,再來談談大數據中的一部分誤解,供給大家批評指教。
- 數據量特別大才夠格叫做 big data
在「data 界」存在這樣一批人,他們認為只有「Peta 級(比 G、T 還大)」以上的才叫大數據,甚至到了「Zeta 級」以上才叫大數據,所以他們認為目前還沒有到真正的大數據時代!
每次聽到這樣的話,我就知道這些人受 IOE 某巨頭的 4V 理論(Volume、Velocity、Variety、Veracity)中的「容量」影響太巨大了。對此,我想說的第一句話是「盡信書不如無書,盡信巨頭不如去 IOE」,去 IOE 不只是要從硬件做起,還要從思想上敢於挑戰巨頭做起,儘管很多 IT 界的經典理論都是傳統巨頭提出的,但是隨著挑戰者的出現,萌發了新的思想和技術後,傳統巨頭會被慢慢顛覆,這也是我們人類前進向前的一個重要因素。
如果我們還停留在迷信巨頭的時代,如此刻板教條的去追求一個概念,那麼就不會有現在的 Hadoop,不會有現在的 Spark,不會有現在的特斯拉,不會有機器學習人工智能,更不會有未來的第 N 次工業革命。
首先我想強調,大數據技術真的不是一個新鮮詞,在之前的文章中我已經說過,大數據的本質還是數據,數據這個行業已經發展了若干年,而數據量的規模永遠是超出該時代的想像的,比如十幾年前,一張軟盤的數據量也就 1.44M,當時的數據如果達到 1T 都讓旁人咂舌。那麼按數據量的標準,當時如果有人收集了 1T 數據就已經進入大數據時代了嗎?
顯然不是!所以我想說,數據量的大小並不是衡量大數據的標準,如果按數據量去判斷是否大數據的話,那麼「大數據」這個詞真的是一個偽命題,就如同「老虎比如是老的,小伙必須是小的,巨頭必須是腦袋大的,飛人必須是長翅膀的」這種純粹字面意思去定義的話題一樣。
那麼再回過來說,大數據的概念是什麼?
首先,大數據是一個完整的生態體系,從數據的產生、採集、加工、匯總、展現、挖掘、推送等方面形成了一個閉環的價值鏈,並且通過每個環節的多種技術處理後,為所在業務場景提供有價值的應用和服務。
其次,大數據的核心是什麼?一方面是開源、一方面是節流,目前大數據技術的核心目標都是通過低成本的技術更好的滿足對數據的需求(尤其是處理近年來更多的非結構化數據),並在在滿足需求的基礎上盡可能多的為企業節省投資。大數據的核心理念還是滿足應用需求,有明確目標的技術叫生產力,沒有業務目標的技術叫「浪費生命力」。
- 為了大數據而大數據
這個謬誤我認為是目前最嚴重的。
在部分企業中,追求技術一定要最新、最好、最炫,一定要拿到國際先進、世界一流才行。所有的企業,不分行業、不分性質、不分地域不分年代,一律高喊「大數據力助XX」、「企業達到XX目標」,接下來就是先去 IOE,然後投資買集群,把之前的各種高性能小型機、大型機都不用了,之前買授權全部停了,之前的幾十年投資一夜之間作廢,然後投入了更多的資源去追趕「大數據」。
同學們,這種勞民傷財的事情相信大家每天都會聽到或者親眼看到,很多企業不計成本就是為了博領導一笑,這顯得多麼可笑啊。
對此我想說:
第一,從技術上來說,比如 BA T 或者很多互聯網企業去追求大數據,是因為業務發展的需要。任何一個互聯網企業一出生就是為了流量和點擊而活著,這就意味這大量的非結構化數據需要進行快速處理,這時候就決定了互聯網企業只能通過一些並發手段去分解底層的數據,然後進行快速加工,並滿足其服務用戶和市場的需要。
互聯網企業的業務流程和業務模型就決定了必須得採用大數據技術。反之,很多企業根本用不著這些技術,有些企業簡單的一、兩個 Excel 文件裡面做幾個公式就可以滿足它的發展,而且數據的周期還是按月處理的,根本不需要運用這些技術。
第二,從投資上來說,互聯網企業出生都是平民,根本買不起大型設備,就算一夜暴富後,也沒有一個傳統的小型機、大型機可以更好的滿足它們的發展,故只能另闢蹊徑,創造價值鍊和標準了,在之前的低投資、輕量級架構上,不斷進行小量的線性硬件投資滿足業務的發展。
反倒是一些傳統企業,甚至是巨無霸,其投資計劃已經在一年前明確,而且在原來的基礎上投資會更有 ROI(投資回報率),現在反倒為了追求大數據的口號,犧牲了之前的大量投資,除了「得不償失」之外,沒有更好的形容詞了。
大數據技術甚至任何一種技術都是為了滿足特定的業務目標而生的,在具備了明確的業務目的後,順勢設計符合自身業務架構的技術架構,才是一種科學的健康的發展觀。如果您是一位老闆、CEO 或者投資人,千萬要明白,大數據技術對於企業來說,有時候像水,而企業的業務目標就是那艘船,「水能載舟,亦能覆舟」。
大數據之後的技術也會日新月異的進步著,比如現在開始潮流湧現的「機器學習、深度學習」等諸多的人工智能方面的技術,也出現了比如「小數據」、「微數據」等更細方向技術的細分,在技術的洪流到來時,只要保持清晰的以滿足業務為導向的頭腦,根據自身的業務需要設計自身的技術架構,就不會被各種流派,各種概念淹沒。
(本文轉載自合作媒體虎嗅網;圖片來源:Gerd Leonhard, CC Licensed)
- 延伸閱讀




