Ashish Thusoo 是資料分析公司 Qubole 的共同創辦人兼 CEO,長年專注在資料分析的研究。過去他曾效力 Facebook,負責 Facebook 內部的資料分析,在他的領導下,該團隊開發出世界上最大的資料分析平台。
以下是他在做資料分析引擎規模化( scaling the data analytics engine)學到的經驗:
1. 從「該抓那些資料」轉變成「有這麼多資料可以做什麼」
除了少數的狀況外,簡單的演算法搭配大量資料,計算出來的結果遠比複雜的演算法搭配少量資料更好;這相當類似統計的概念,意即在樣本數夠大的情況下可以忽略誤差。
2. 盡可能簡化分析工具,讓一般使用者也能使用自如
3. 大量的使用者可以使你的分析工具更趨完善
第 2 和 3 點相輔相成。當你把分析工具設計地簡單易懂,一般使用者自然樂意使用,而且這些人的加入,會使某些極端的問題一一浮現;例如一個寫很爛的查詢指令就會癱瘓整個系統,因此你必須花更多心思另外處理、配置資源,以及管理安全性和權限。
4. 協作模式適用 Big Data
我們刻意把分析工具設計地帶有合作的成分,如此一來當使用者分享他們的分析,就會從討論中得到更多的成果。
5. 沒有一種架構適用所有狀況
我們經常在開發的過程中遇到從未見過的問題,與其硬是將它納入現有的架構,直接設計一個新解決方案會是更好的選擇。
6. 維持服務比開發軟體更難
我們花了很多的時間跟心力才讓服務正常運作,一方面必須提高系統負載量,同時還要保留彈性,最重要的是要經常監控系統狀態是否異常。
如果你感受不到資料分析的重要性,看看 Ashish Thusoo 幫忙創下的紀錄吧:
2007年 Ashish Thusoo 加入 Facebook 時的使用者只有 5 千萬人,到他離職時,使用者已經成長到 8 億人。
即便不全是他的功績,但你也不能小看資料分析的功勞。




