在百度大數據開放大會上,搞計算機學術理論的懷進鵬校長的演講猶如給所有聽眾的一記悶棍,懷校長的學術演講把大家弄得雲里霧裡,把所有人弄暈了,現場能夠聽懂的絕對是少數,可能都會覺得懷校長有點像個外星人一般在那自顧自的演講。但我作為一個曾經有志從事人工智慧研究但失之交臂的又是學計算機畢業的人卻越聽越興奮,冥冥中似乎找到了未來的人工智慧所能抵達的可能性,那麼我現在就嘗試把懷教授的演講轉換為人類也能夠聽懂的語言吧。
一,理解大數據
1,當前大數據的四大特徵:規模大、變化快、種類雜、價值密度低。
其實這理解起來很簡單,我們來看新浪微博的大數據,為什麼變現那麼困難就知道了,新浪微博擁有龐大海量的用戶大數據,但用這些行為數據變現卻步履維艱,原因就在於微博上所產生的數據不夠垂直,涉及面極廣,而能夠與商業相關的價值就更加難以挖掘了。
2,產業成果
懷校長列舉了三塊內容,百度和谷歌熟悉用戶瀏覽行為,進而提供個性化的搜索。淘寶亞馬遜因為熟悉用戶購物習慣,可以為用戶提供精準的喜好物品。微博和twitter了解用戶思維習慣和社會認知,可以為國家和企業提供民眾情緒等系列數據。
二,實踐中的思維轉變
大數據帶給我們在研究以及實踐策略上的思維轉變。
1,從抽樣到全樣,大數據的大決定了大而全的特性,在傳統工業中教會我們做統計的最大方式就是抽樣,諸如系統抽樣,分層抽樣,定額抽樣......,這些統計方法將會在大數據時代越來越不復存在。大數據的信息化可以統計到一切想要統計的數據,將工業時代的統計方法淘汰掉。
我們將會利用技術獲得一切想要統計到的數據。
2,從精確到非精確。關於這一點其實也很好理解,我們就拿傳統時代的搜索來說,在傳統的搜索時代,當我們去查詢某個信息時,我們需要得到的是全部的數據,但是搜索引擎則完全改變了我們這種認識,搜索引擎提供的只是前幾項內容,而這幾項內容則完全滿足了我們的信息需求。
搜索引擎其實在做的是一套模糊演算法,經過一系列的演算法計算,將最優秀的結果帶到用戶面前,而這種結果上的呈現也顛覆了傳統所認知的對於目標的定義,在大數據時代,我們追求的不再是絕對目標,而是一個從宏觀趨勢下推導出的一些模糊的不精確的未知目標。
我們將追求無限的近似而不是絕對的正確。
3,從因果到關聯。而這也直接導致了西方又產生了驚人的言論—「理論已死」,這是繼「上帝之死」,「人之死」,「作者已死」「歷史的終結",「哲學已死」後的又一大膽的言論。以往的決策者要想決定某件事,必須參考各種理論,對其中的因果進行判定後才能達成,但是大數據時代則讓決策變得更加容易,比如超市大數據可能會用清晰的圖表告訴你每當下雨天時,超市裡的蛋糕會賣的多,這時候決策者根本不需要知道任何理論,任何因果,只需要在天氣預報預測明天將要下雨時提前準備蛋糕就行了。
而這種只依賴相關性不再依賴因果性的決策思想,正在慢慢的滲透到擁有大數據的各行各業,互聯網業,零售業,旅遊業,金融業......
三,大數據到大數據計算
1,大數據膨脹,如何解決搜索問題?傳統的演算法在搜索數據時完全沒有問題,因為數據量很小,但是當數據海量增長時問題就會凸顯出來,用原來的演算法去計算肯定是不行的,按照當前最快的硬碟檢索速度(60GPS),線性掃描完1PB(10TB的15次方)的數據需要1.9天的時間,所以當數據海量膨脹時,必須重構演算法策略來做數據的處理。百度目前的處理量是一天處理10PB的網頁數據,這其中包括了運算和讀取,算是目前最好的演算法了。
2,大數據膨脹,如何處理演算法以及數據的問題?上面提到的是通過改變演算法來達到遍曆數據的目的,但是在真正處理數據時依然是無法做到高效的,畢竟機器CPU的運算瓶頸擺在那裡,演算法工程師本質上在做的事情就是在現有的運算條件下,設計出最優方案,來求得最好的結果。
而懷校長告訴我們的這個挑戰就是,在大數據的膨脹後,不僅要將原來的演算法更換為近似演算法,同樣還要將數據更換為近似數據,只有二者合力改變才有可能在現有機器運算能力的情況下抵達最優的結果。
同樣是說起來容易做起來難,在這樣的近似演算法以及近似數據的改變下,到底該近似到何種程度,才能夠最接近原演算法的結果?要知道,在計算機世界裡,差之毫厘失之千里,改變的量也許很小,但是如果一旦改錯,就會造成巨大的錯誤結果,稍懂程序的人都知道,幾行簡短的代碼就能讓無論CPU運算能力多強的電腦徹底死機,而搜索引擎則更是一個更加龐大的試錯工程。
最後,懷校長展示了兩個學術前沿發展,第一,是定義易解類問題,從現實應用中找到這類易搜索問題,將之歸類並應用於其他實踐當中。第二,是將大數據進行小數據處理,尋找轉化的精度度量,也就是他之前所說的尋找數據的近似值。
寫完這段不禁感慨,其實演算法工程師本質上是在機器CPU條件不夠的情況下為滿足大眾需求的博弈,機器的配置條件永遠無法跟上人類的需求,而為了滿足人類需求,演算法工程師們必須絞盡腦汁的去設計在現有條件下能夠產出的最優答案,而不是考慮標準答案。而這又讓我想到了深藍電腦擊敗國際象棋大師的事情,事實上只要是懂一些程序的人甚至連我也都可以寫出一套能夠擊敗任何國際象棋大師的演算法,只不過要想下完一局棋可能要用盡棋手一生時間都不止,因為CPU的運算速度無法跟上想法。所以深藍電腦的勝利本質上不是人工智慧贏了,而是工程師在設計最優演算法的策略上贏了。
此外在大數據計算中,懷校長還講了大數據運算的三大基礎,表示,度量和理解。因為太過專業,解釋每一個詞都足夠用一篇文章來解釋,而且還不一定說得清,所以在此略過。
四,大數據軟體工程
作為學軟體工程出生的人,當我看完懷校長對大數據軟體的演講後有一種莫名的傷感,因為我預見到我曾經所學的軟體工程必將被大數據全部重構,絕大多數的軟體都可能走向為大數據軟體,這就好像網頁崛起後,網頁軟體的數量將大幅超過PC軟體一樣,又像智能手機崛起後,APP軟體的數量開始遠超網頁軟體一樣,等到硬體設施成熟之後,未來的軟體開發也必將會是大數據的天下。追溯軟體工程的起源,這是在計算機硬體條件穩定後,為了解決效率問題而從工程學的角度來建立的軟體開發方式,分工明確,進度安排明確,和其他工業生產別無二致。但懷校長接下來的演講中,我們可以窺見到,軟體工程有可能會走向另一種模式。
1,如何解決大數據的計算支撐問題?說的簡單點就是,大數據處理必然不是一台或者幾台伺服器就能搞定的小事情,大數據處理需要龐大的硬體支撐,硬體支撐也必然是分布式的設計,那麼該如何設計頂層的系統架構才能高效能的滿足大數據的處理工作?近似性(Inexact)、增量性(Incremental)和歸納性(Inductive)的3I特徵如何被滿足?
大數據下分布式硬體如何與軟體協同,如何避免擴展失度,處理失效和耗能失控,這些都是令人頭大的問題。在系統設計上充滿挑戰。
2,眾包大數據是否可以開發軟體?這其實是一個非常瘋狂的想法,我是這樣解讀懷校長的想法的,假設目前我們可以做到眾包大數據軟體開發,那麼情形應該如下:大數據爬行機器根據讀取新浪微博的數據,百度指數的數據,百度貼吧的數據,淘寶的交易數據……後,發現了用戶的各種情緒以及需求的曲線,軟體開發者再根據這些數據的呈現開發出一套軟體的模型然後交給運營商放置於雲端,而用戶再參與進入各種雲端產生的軟體,在此種產生了各種行為,於是機器再根據這些用戶的行為,為軟體建模,規劃。
這是一種極為精尖互動式數據挖掘技術,前提是解決演算法以及存儲問題,一切皆有可能。未來的大數據軟體將不會是一種固有形態,而是一個不斷根據數據自動變化的超級生態,可能不是依靠產品經理推動,而是依靠演算法工程師來推動,讓用戶的需求自然暴露,然後為他們去實現一些功能。
而我從一個更高的哲學層面來看這樣的大數據軟體建構,如果我們將全人類的群體行為看成是不斷運作產生的數據,然後我們某些個體從中把握了某些東西進而產生了各種產品,再回過來看這樣的大數據軟體架構,其實說到底,這樣的大數據軟體,其實更像是在將我們的世界還原出來而已,只不過會比人做出來的更快更厲害更加完美。
如果真的能夠實現這樣的大數據軟體建構,那麼目前對大數據的某種定義將被完全推翻,在我們眼裡大數據不過是用來固定的人類信息行為後為人類輔助的決策工具,這樣的觀點也將失效。大數據或許會在未來某個階段被定義為:對人類世界的真實還原,並且不斷的滿足我們的任何願望,曾經我們依靠它來決策一些事情,現在我們依靠它來直接抵達我們想要做的事情,我們所有的行為都已經成為我們決策的一部分。
這其實就是超級人工智慧了。
結語:懷校長的演講在開頭部分講了大數據在這個時代對我們傳統思維的衝擊,一些價值觀的建立,但是接下來講的更多的不是已經成型的科研成果,更多的是拋出問號,拋出還沒有解決的難題,以及一些失敗的嘗試,還有一些沒有開始嘗試的假設,這在表面上看來似乎與本次演講的主題有些唱反調的樣子,但仔細想想卻又明白,CPU的計算能力永遠達不到這些最頂級的科研人員想要的高度,而計算機科學家們永遠只能在現有的條件下做困獸斗,做出在這個時代所能賦予的條件下最漂亮的成績,而這就是他們一生所追求的使命。
感謝懷校長的精彩演講,讓我們看到了未來的零星火花,很美。
FineReport報表免費下載——零編碼做報表、多維圖表、多源填報、許可權管理,完美兼容excel。官網:http://www.finereport.com/tw/