對於那些著手嘗試大數據應用的企業來說,成敗的關鍵是組建一個優秀的大數據團隊,但是不要指望一個「首席數據官(CDO)」或者數據科學家搞定所有的事情,成功的大數據團隊需要三駕馬車:一位業務分析師、一位機器學習專家和一位數據工程師。
隨著報表軟體企業應用的火熱開展,數據科學家正在鬧人才荒,可謂一將難求,但是Lithium公司的首席科學家Michael Wu博士在接受IW採訪時表示:數據科學家的人才荒是因為人們對數據科學家的期望值過高,希望他即懂業務也懂最先進的大數據技術,這樣的人才自然是奇貨可居,而且不是每個企業有錢就能招募到的。
「三個臭皮匠頂個諸葛亮」,對於大多數企業來說,與其指望一位大數據「救世主」,不如重點關注如何搭建一個成功的大數據團隊。
Wu博士認為,數據科學家這個稱謂被過度炒作了,實際上人們口中的數據科學家對應著多個職位:「當人們嚷嚷數據科學家人才匱乏的時候,實際上他們指的是同時具備多個職位技能的人才缺乏。而企業完全能夠通過將業務分析師、機器學習專家和數據工程師這三類人才捏合成一個團隊來代替數據科學家。」
業務分析師這個角色早在數據科學家之前就已經出現了,業務分析師使用前端工具分析企業核心業務數據並給出能支撐決策的分析結果,這些工具包括Excel、Tableau的數據可視化工具或者QlikView的商業智能應用。財務報表業務分析師通常也有足夠的編程技能來開發儀錶盤,對SQL和NoSQL也不陌生。
隨著大數據的熱潮到來,很多業務分析師開始自我標榜為數據科學家,「但實際上他們不是」,Wu博士說道。不過,根據Alteryx的預測,掌握大數據分析技術的業務部門分析人員將比大數據科學家對企業更加重要。這意味著2014年數據科學家的高工資難以持續。
大數據團隊的第二個重要角色是機器學習專家,他們開發演算法和數據模型來處理數據,甚至提供預測分析,例如分析消費意向。一些機器學習演算法甚至能自動為圖片和視頻加標籤,或者向消費者提供精確的推薦服務(例如Netflix)。
大數據團隊的第三個重要角色是數據工程師,他們是大數據團隊的基石,他們直接面對Hadoop、MapReduce、HBase、Cassandra這樣的大數據技術。大數據工程師的興趣在於採集、存儲和處理數據,以便演算法團隊能在其上建模。
FineRepor報表免費下載——零編碼做報表、多維圖表、多源填報、許可權管理,完美兼容excel。官網:http://www.finereport.com/tw/