大數據的「真面目」及其運用

 大數據的定義

近年來,人們對「大數據」的關注度日益提高。這都歸因於麥肯錫全球研究院在2011年發布的研究報告。該報告認為人們即將迎來一個利用規模大到超出現有數據處理系統能力的巨量信息時代,並暗示戰略性地利用這些信息數據,就有可能產生巨大的商業機會。

那麼大數據到底是什麼呢?從字面來看,它指的是以現有信息處理技術無法應對的龐大信息量。而實際上,當我們將儲蓄了各種服務的使用信息數據與用戶的屬性信息相結合,並在這些信息數據發生時能夠全量獲取,就被稱做大數據。

典型的是互聯網服務的利用數據。另外還包括零售業銷售數據(POS數據)、電力使用數據、來自加速度感測器和無線運動監控器等設備的感測器測量數據。

與抽樣數據不同,大數據網羅了來自各種服務用戶的所有利用數據,它積累的信息不是以一天、一小時,而是以每分、每秒的實際發生情況為基礎的。從地區信息方面來看,它不是以市區町村或其他更小的單位來劃分的,許多時候可以精確到6位、7位數的經緯度座標級別。

大數據的三個特性

人們通常以巨量(Volume)、多樣(Variety)和高速(Velocity)三個詞來概括大數據的特徵,統稱為「3V」。但諸如作為典型大數據的電力、加速度感測器等探測的數據就談不上擁有搜索關鍵詞這種「多樣性」。從速度和巨量這些條件來看也是如此,未必總能符合3V標準。

從利用角度來看,大數據具有以下三個特性。

一是可獲得的「屬性深度」低於一般的行為觀察和問卷調查數據。即使掌握了何時用過、用了多少等信息,但無法知曉「是在什麼狀況下,出於什麼理由或目的進行了這些行為活動」等利用背景。用戶的屬性信息(有無幼年子女、職業、教育程度、收入等)也比較少。這可以說是將這些數據用於市場營銷時的一個課題。

二是覆蓋了所有的發生數據。可以找出抽樣數據中無法看到、相當於發生頻率較低的尾端部分的數據的獨特類型。

三是信息利用的實時性。由於大數據可以實時讀取、處理消費和利用過程中各個場合發生的情況,所以可用於捕捉特定行為和需求發生的瞬間。比如,當某位特別關注某種汽車的用戶瀏覽了相關網頁時,就可以立刻提供有關該汽車的信息。這是無法藉助傳統市場營銷數據實現的。

大數據發揮優勢的事例

下面,讓我們以「為顧客提供價值」這種市場營銷視角,從六個步驟上來觀察一下數據的廣泛利用。

第一步是「看清市場結構與需求」,這是制定各種商品開發與服務戰略的基礎;第二步是基於這種市場判斷,設計所提供的核心價值、服務屬性;第三是針對不同顧客的市場營銷;第四是像前面提到那樣,在需求發生時提供推銷服務(廣告、郵件、網站內容等);第五是檢驗實施前四步以後產生的效果;第六是從數值上預測未來情況。

大數據在上述後四個步驟方面尤其具有優勢。比如,要提供符合個別用戶特性的服務和信息,大數據是不可或缺的前提。在互聯網上依據用戶的網路記錄過濾不恰當信息,提供有針對性的廣告及符合個人消費行為的優惠券等,這都屬於典型事例。

實時打廣告或在搜索框中輸入熱門話題的部分字眼時,立刻就會自動提示話題相關辭彙,這種現象源於積累了用戶的使用數據後所產生的「機械學習」。通過這種機械學習利用大數據的特點,在於服務提供方即使不理解具體語境也無妨。

此外,越是要詳細獲取信息,就越是離不開大數據的幫助。比如,觀察在特定的一周內,人們傍晚在某車站附近的店鋪內集中購買雞肉的變化情況這樣的例子。

預測分析選舉結果、景氣動向等

另外,人們的一個強烈期望,是運用大數據對不大遙遠的未來,也就是對當下或者近期做出準確的定量預測。我在雅虎實施過兩個有趣的預測。一是預測了2013年7月的參議院選舉結果。

最終發現,我們的預測大部分準確,預測結果的準確率超過了所有主要媒體。具體而言,我們發現互聯網上關注度—搜索量和推特、Facebook上的原創發帖量等——與投票方式具有高度關聯性,針對每個選舉區進行了預測。歷來的辦法是通過專家學者的觀察、選民的呼聲和問卷調查結果等進行綜合預測,而我們僅依據數據的類型和利用量進行預測,獲得了準確性超越傳統做法的結果。

另一個例子是經濟情況的預測。內閣府公布的景氣動向指數,通常在時間上要滯後1、2個月,但人們想知道的不是兩個月前的景氣好壞,更想知道現在的情況如何,於是我們開始了這個預測。我們首先從分析搜索詞條入手。雅虎上全年大約會出現75億種搜索詞條。我們對其中經常被搜索的約60萬個進行了全面分析後,篩選出了尤與經濟指標密切相關的200個關鍵詞。以此為基礎,製作了用於推導當前景氣指標的模式,預測結果也成功做到了基本準確。

如上所述,在對近期或當前的定量預測中,大數據發揮出巨大作用。實際上,它早已被用到了日常的供應鏈管理中,便利店一天三次發送數千件商品也沒有出現赤字的一個理由就在於此。

妨礙利用的各種問題

然後,我想談一談利用大數據時可能出現的幾種典型問題。第一,幾乎所有企業實體根本就沒有稱得上大數據的數據。這是問題之前的問題。

第二,各種數據本身尚未得到充分完善,導致無法整合數據加以利用。比如,零售商品數據,通常按大類、中類、小類等多層次分類,但對這種商品管理數據結構,即使是在同一個零售集團內部,每個鏈條都各不相同。這樣一來,整合利用就變得極為困難。如何將這些數據整合起來加以利用是一個重大課題。

即使解決了上述兩個問題,另外還需要一種可以實時處理和利用龐大數據的機制。大多數企業既沒有這種機制,而且也不具備基礎,將不斷湧入的數據存儲到記憶裝置中去。就算擁有存儲基礎,也沒有運用維護的人才。

為了解決這些問題,公司迫切需要的是擁有綜合技能的人才,運用信息科學和工程技術學,從海量的數據中找出解決商業課題的答案。

綜上所述,缺乏數據、無法整合、不能建立讀取處理和利用的機制、沒有足夠的儲存保管基礎、缺乏運用維護人才以及可以綜合梳理並解決問題的人才——這就是現今大多數公司利用大數據的現狀。

安全對策上的兩極分化

在有關大數據的爭論中,人們經常提到隱私保護問題,由於混雜了基於不同立場的論調,所以視角的不同會導致問題反映的層次不同。

關於安全問題,大多數主要的互聯網運營商早已為此採取了有效的措施。比如雅虎,將可以鎖定個人的信息與行為痕迹數據明確地分離開來,使用的數據都經過了匿名化處理。

另一方面,許多傳統型企業對個人信息與日誌文件都不加以區分,而是把它們整合起來進行管理;再加上許多這樣的企業缺乏監控危險的完善機制,甚至難以發現數據是否已經外泄。

在數據的利用上,企業間出現了兩極分化。為了保護使用者,各家企業在利用之前,必須首先針對數據管理制定規章指南。

日本面臨的三個「障礙」

總體而言,與美國等一些國家相比,現今日本的數據利用環境存在三大障礙。一是創造大數據的企業較少。二是缺乏打造一個便於利用數據環境的基礎。比如,日本的電費是美國的好幾倍,導致數據中心的設立和運營成本高昂。這也是信息類主要企業始終沒有涉足日本數據基礎設施建設領域的一個原因。為了吸引數據產業落戶,至少應該設置一些諸如提供特殊電價的例外措施。

第三是前述的人才不足問題。針對這一問題,需要兼備三種能力的人才,即「數據科學能力」、「數據工程技術能力」,以及在理解問題背景的基礎上,梳理並解決這些問題的「商務能力」。

數據科學能力指的是理解和運用信息處理、人工智慧、統計學等信息科學知識的能力。數據工程學能力指的是能以有意義的形式運用數據科學,組建並運用實際系統的能力。我認為,不一定非得要求一人多能,但能否有意識地集中培養一批各有所長的人才,將是決定未來大數據利用成功與否的關鍵。

FineReport報表免費下載——零編碼做報表、多維圖表、多源填報、許可權管理,完美兼容excel。官網:http://www.finereport.com/tw/

时间: 2024-10-11 17:21:26

大數據的「真面目」及其運用的相关文章

大數據應用於企業運營

警,並把有效的活動當成商品一樣及時的推送給不同生命周期階段的客戶: (6)客戶個性化推薦.主要是用個性化推薦演算法實現根據用戶不同的興趣和需求推薦不同的商品或者產品,以實現推廣資源效率和效果最大化. 業務市場傳播層.這一層面要做到通過「性感」的數據分析和挖掘來輔助產品進行傳播,主要有兩種實現方式: (1)製作有趣的數據信息圖譜.相信大家都不喜歡看產品的公關軟文,而更喜歡看好玩的有趣的內容.互聯網上內容的傳播更是如此.第三方數據公司CNNIC中國互聯網路信息中心2014年的數據顯示,10-29歲的

生物醫學大數據:現狀與展望

大數據 (big data) 是指由於容量太大和過於複雜,無法在一定時間內用常規軟體對其內容進行抓取.管理.存儲.檢索.共享.傳輸和分析的數據集. 大數據具有「4V」特徵:①數據容量 (Volume) 大,常常在 PB(1 PB=250 B)級以上:②數據種類 (Variety) 多,常常具有不同的數據類型(結構化.半結構化和非結構化)和數據來源:③產生和更新速度 (Velocity) 快(如實時數據流),時效性要求高:④科學價值 (Value) 大,儘管利用密度低,卻常常蘊藏著新知識或具有重要

大數據時代浪潮的「弄潮兒」

進入2015年,海量的數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然現在企業可能並沒有意識到數據爆炸性增長帶來的問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性. 面臨海量數據的挑戰 大數據(big data)是時下非常熱門的話題,大數據是用來描述和定義信息爆炸時代產生的海量數據.大數據的發展能夠為人們獲得更為深刻.全面的洞察能力提供前所未有的空間與潛力,那麼如何看待大數據給IT市場帶來的機遇和挑戰呢? 紐約時報網站此前刊載文章稱,大數據時代已經來臨並且正在對每個領

成功大數據團隊的「三駕馬車」

對於那些著手嘗試大數據應用的企業來說,成敗的關鍵是組建一個優秀的大數據團隊,但是不要指望一個「首席數據官(CDO)」或者數據科學家搞定所有的事情,成功的大數據團隊需要三駕馬車:一位業務分析師.一位機器學習專家和一位數據工程師.隨著報表軟體企業應用的火熱開展,數據科學家正在鬧人才荒,可謂一將難求,但是Lithium公司的首席科學家Michael Wu博士在接受IW採訪時表示:數據科學家的人才荒是因為人們對數據科學家的期望值過高,希望他即懂業務也懂最先進的大數據技術,這樣的人才自然是奇貨可居,而且不

「一根手指」背後的大數據生意

大家好!我是識益科技的聯合創始人劉志彬. 首先,在場的朋友,請伸出你的一根手指,大家想想看,一根手指能做什麼呢?能提起一個袋子,能捋下頭髮,扶下眼鏡,摳一下鼻子對吧!但,今天,我要給大家分享:這根手指,如何改變我們的整個生活. 大家看下我手裡的卡包,尤其是女孩子都不陌生吧.銀行卡,購物卡,美容卡,美甲卡,玩具卡...這些都是我老婆一個人的.這麼多卡,太麻煩了.首先,出門不能全帶著吧.今天我想去咖啡店喝咖啡,還要在裡面折騰找一回.還有,在郊區吃了一家新館子,送了張會員卡,下次不知道哪年哪月能來,這

保障「舌尖」安全 大數據應用有錢「數」

兩會期間,空氣.水.食品安全等問題依然是關注熱點.針對食品安全風險如何把控的話題,昨日,全國政協委員嚴琦.全國政協委員杜惠平.全國政協委員彭靜等接受商報記者採訪時均建議,新的市場環境下,除了完善的制度體系建設,解決食品安全問題更需要藉助更新的技術和服務.而隨著移動互聯網.大數據等先進技術手段在食品安全領域的應用,配套建設誠信資料庫.移動APP等將迎來商機. 現狀 食品追溯體系 推廣率亟待提高 食品安全關係千家萬戶,保障「舌尖」安全目前還有哪些方面需要完善? 全國政協委員嚴琦表示,在2010年和2

大數據時代的經營

維克托•邁爾•舍恩伯格所著的<大數據時代>是國外大數據研究的經典之作,維克托認為,大數據時代,人們處理數據的方式從抽樣分析,發展為對全體數據的分析.相應的,人們的思維模式也從原來的因果邏輯思維,逐漸演變成關聯思維. 在經驗時代,當所有人都在盲人摸象的時候,企業之間比拼的是決策者的頭腦和思維.當進入大數據時代,僅僅有思維和頭腦已經不夠了,因為有人已經站在大數據頂端,全面地看到了整頭大象,只知道埋頭工作不知道抬頭看方向的企業,是要被淘汰的.今天企業做經營決策不能再依靠經驗模式,而是要用大數據分析的

大數據時代的不平等問題

一家國際著名保險公司與提供大數據的公司合作,推出一款針對不同駕車群體的保險計劃.這一計劃的要點是,由大數據公司對不同潛在客戶的駕車習慣進行分析,如果數據表明某位客戶是白天上班,路也近,而且所經過的地帶是安全路線,客戶駕車習慣良好,沒有特別情緒化舉動,那麼,給其所賣的保險可以打折:反之,如果數據表明某位客戶是上夜班,上班地點也遠,所經過的路線有風險,客戶駕車習慣也不好,常無法控制自己的行為,那麼,保險公司將提高其所繳納保費額度.從商業角度看,保險公司這樣做,是為了更精確地細分市場,賺取更高利潤,這

超級人工智慧:大數據的未來?

在百度大數據開放大會上,搞計算機學術理論的懷進鵬校長的演講猶如給所有聽眾的一記悶棍,懷校長的學術演講把大家弄得雲里霧裡,把所有人弄暈了,現場能夠聽懂的絕對是少數,可能都會覺得懷校長有點像個外星人一般在那自顧自的演講.但我作為一個曾經有志從事人工智慧研究但失之交臂的又是學計算機畢業的人卻越聽越興奮,冥冥中似乎找到了未來的人工智慧所能抵達的可能性,那麼我現在就嘗試把懷教授的演講轉換為人類也能夠聽懂的語言吧.一,理解大數據1,當前大數據的四大特徵:規模大.變化快.種類雜.價值密度低.其實這理解起來很簡