入門級大數據分析:Google BigQuery

大數據項目挺嚇人的,尤其是如果包含了設置和管理Hadoop集群。如果你更習慣於SQL,而不是MapReduce,但是發現關係型資料庫不符合分析需求,Google BigQuery值得一看。Google BigQuery提供了大數據分析入門級方法。

BigQuery減少了分析大型數據集面臨的一些實現挑戰。價格模型促進了統計分析技能的發掘,因此可以從數據樣品中導出有用的信息,而不是針對全部數據集進行蠻力分析。

有時,要用大數據工作意味著處理速度的精確。比如,如果想要確定操作同一網站的兩個不同的客戶群組是否不同,應該分析網站上與所有這些客戶活動相關每一個登錄日誌。或者,可以取出一部分客戶子集樣例,分析這些樣例之間的不同。基礎統計提供了工具,可以幫助理解這種類型分析的錯誤率,只要錯誤在可接受範圍內,結果對於決策制定就是有效的。

在TOP功能中可以看到這種交換,通過grouping和sorting操作返回頂行發現。可能返回近似的結果,但是這個函數通常比使用「group by」、「order by」和「"limit」的組合語句更快速。

Google BigQuery操作特性

BigQuery旨在分析數十億行近似的數據,使用類SQL語法。它並不是完全符合SQL資料庫的替代,並不適用於交易處理應用。BigQuery支持分析交互風格。使用SELECT命令構建查詢,對於任何SQL開發者都應該很熟悉。

查詢語言包括支持標準操作,比如joining、sorting和grouping,以及內嵌數據結構。正如我們所期望的大數據分析服務,可以支持統計函數,比如count、sum、average、variance和standard deviation(標準偏差)。Grouping函數和描述性統計的結合相當直接的在兩個總體中比較平均數和變異數。

入門級大數據分析:Google BigQuery
入門級大數據分析:Google BigQuery

聯接是標準化數據模型必要的操作,但是計算昂貴。BigQuery函數中的JOIN運算符類似於SQL join,但是在聯接兩個表時,其中一個表必須是8MB或者壓縮到更小。這種類型的限制可以進行更加有效的聯接操作,因為更小的表可以有效高速緩存,聯接到更大的表。如果必須聯接兩個大型表,可以使用JOIN EACH操作,但是性能就會更慢。

可以使用簡單的瀏覽器界面同BigQuery進行交互操作。瀏覽器工具保留查詢歷史,提供了構造查詢的工作局域。這是一種基本的工具;並不具備SQL開發者工具中全面的功能,比如MySQL Workbench和DBVisualizer。也可以通過命令行界面工作。

通過訪問Google的雲資源,你可能想知道為什麼你要為查詢樣例或者近似結果操心,畢竟,你可以在這個問題上投入更多的硬體不是嗎?對,你可以,但是BigQuery基於你分析了多少數據來收費。

Google的價格模型基於存儲和分析的數據總量。存儲費用是每月0.12GB美元。交互查詢為每處理1GB 0.035美元,包查詢費用為0.02美元/GB。為了限制處理的數據量,可以限制分析的行數,包括你實際需要結果的列。BigQuery使用柱狀數據存儲,因此並不是所有的行數據,在一個或者更多列查詢時回復。

數據存入BigQuery,使用負載工作,可以同Google Cloud Storage的數據工作,或者使用POST請求本地文件系統中的數據。文件可以格式化成為CSV或者JSON格式。壓縮文件限制到1GB,但是非壓縮文件能到1TB。負載工作包括多達一萬個文件,但是所有文件的大小總和不能超過1TB。由於每天每個表可以擁有多達1000個負載工作,這些定額對於大多數項目不見得有實際的影響。

FineReport報表免費下載——零編碼做報表、多維圖表、多源填報、許可權管理,完美兼容excel官網:http://www.finereport.com/tw/

时间: 2024-10-26 17:06:23

入門級大數據分析:Google BigQuery的相关文章

數據準備是大數據分析的無名英雄

隨著企業花越來越多的時間來分析數據,清理和準備數據的解決方案將會變得更有價值 現在大數據[注]是熱門話題,你在任何地方與任何人交談很難不提到大數據.事實上,大數據的術語有點被過度使用,它對不同的人意味著不同的東西,但所有這些定義都有一個共同點,那就是數據! 上面我們說大數據依賴於數據,這似乎很明顯,但大數據分析的成功需要的不僅僅是原始數據,還需要好的高質量數據.所以,更準確的說法應該是,大數據的成功需要準備好的數據.對於分析,有句古老的格言,「進來是垃圾,出去也是垃圾」,這意味著如果你把大量參差

大數據時代的經營

維克托•邁爾•舍恩伯格所著的<大數據時代>是國外大數據研究的經典之作,維克托認為,大數據時代,人們處理數據的方式從抽樣分析,發展為對全體數據的分析.相應的,人們的思維模式也從原來的因果邏輯思維,逐漸演變成關聯思維. 在經驗時代,當所有人都在盲人摸象的時候,企業之間比拼的是決策者的頭腦和思維.當進入大數據時代,僅僅有思維和頭腦已經不夠了,因為有人已經站在大數據頂端,全面地看到了整頭大象,只知道埋頭工作不知道抬頭看方向的企業,是要被淘汰的.今天企業做經營決策不能再依靠經驗模式,而是要用大數據分析的

生物醫學大數據:現狀與展望

大數據 (big data) 是指由於容量太大和過於複雜,無法在一定時間內用常規軟體對其內容進行抓取.管理.存儲.檢索.共享.傳輸和分析的數據集. 大數據具有「4V」特徵:①數據容量 (Volume) 大,常常在 PB(1 PB=250 B)級以上:②數據種類 (Variety) 多,常常具有不同的數據類型(結構化.半結構化和非結構化)和數據來源:③產生和更新速度 (Velocity) 快(如實時數據流),時效性要求高:④科學價值 (Value) 大,儘管利用密度低,卻常常蘊藏著新知識或具有重要

大數據時代的不平等問題

一家國際著名保險公司與提供大數據的公司合作,推出一款針對不同駕車群體的保險計劃.這一計劃的要點是,由大數據公司對不同潛在客戶的駕車習慣進行分析,如果數據表明某位客戶是白天上班,路也近,而且所經過的地帶是安全路線,客戶駕車習慣良好,沒有特別情緒化舉動,那麼,給其所賣的保險可以打折:反之,如果數據表明某位客戶是上夜班,上班地點也遠,所經過的路線有風險,客戶駕車習慣也不好,常無法控制自己的行為,那麼,保險公司將提高其所繳納保費額度.從商業角度看,保險公司這樣做,是為了更精確地細分市場,賺取更高利潤,這

成功大數據團隊的「三駕馬車」

對於那些著手嘗試大數據應用的企業來說,成敗的關鍵是組建一個優秀的大數據團隊,但是不要指望一個「首席數據官(CDO)」或者數據科學家搞定所有的事情,成功的大數據團隊需要三駕馬車:一位業務分析師.一位機器學習專家和一位數據工程師.隨著報表軟體企業應用的火熱開展,數據科學家正在鬧人才荒,可謂一將難求,但是Lithium公司的首席科學家Michael Wu博士在接受IW採訪時表示:數據科學家的人才荒是因為人們對數據科學家的期望值過高,希望他即懂業務也懂最先進的大數據技術,這樣的人才自然是奇貨可居,而且不

超級人工智慧:大數據的未來?

在百度大數據開放大會上,搞計算機學術理論的懷進鵬校長的演講猶如給所有聽眾的一記悶棍,懷校長的學術演講把大家弄得雲里霧裡,把所有人弄暈了,現場能夠聽懂的絕對是少數,可能都會覺得懷校長有點像個外星人一般在那自顧自的演講.但我作為一個曾經有志從事人工智慧研究但失之交臂的又是學計算機畢業的人卻越聽越興奮,冥冥中似乎找到了未來的人工智慧所能抵達的可能性,那麼我現在就嘗試把懷教授的演講轉換為人類也能夠聽懂的語言吧.一,理解大數據1,當前大數據的四大特徵:規模大.變化快.種類雜.價值密度低.其實這理解起來很簡

大數據時代浪潮的「弄潮兒」

進入2015年,海量的數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然現在企業可能並沒有意識到數據爆炸性增長帶來的問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性. 面臨海量數據的挑戰 大數據(big data)是時下非常熱門的話題,大數據是用來描述和定義信息爆炸時代產生的海量數據.大數據的發展能夠為人們獲得更為深刻.全面的洞察能力提供前所未有的空間與潛力,那麼如何看待大數據給IT市場帶來的機遇和挑戰呢? 紐約時報網站此前刊載文章稱,大數據時代已經來臨並且正在對每個領

大數據的「真面目」及其運用

大數據的定義 近年來,人們對「大數據」的關注度日益提高.這都歸因於麥肯錫全球研究院在2011年發布的研究報告.該報告認為人們即將迎來一個利用規模大到超出現有數據處理系統能力的巨量信息時代,並暗示戰略性地利用這些信息數據,就有可能產生巨大的商業機會. 那麼大數據到底是什麼呢?從字面來看,它指的是以現有信息處理技術無法應對的龐大信息量.而實際上,當我們將儲蓄了各種服務的使用信息數據與用戶的屬性信息相結合,並在這些信息數據發生時能夠全量獲取,就被稱做大數據. 典型的是互聯網服務的利用數據.另外還包括零

大數據應用於企業運營

警,並把有效的活動當成商品一樣及時的推送給不同生命周期階段的客戶: (6)客戶個性化推薦.主要是用個性化推薦演算法實現根據用戶不同的興趣和需求推薦不同的商品或者產品,以實現推廣資源效率和效果最大化. 業務市場傳播層.這一層面要做到通過「性感」的數據分析和挖掘來輔助產品進行傳播,主要有兩種實現方式: (1)製作有趣的數據信息圖譜.相信大家都不喜歡看產品的公關軟文,而更喜歡看好玩的有趣的內容.互聯網上內容的傳播更是如此.第三方數據公司CNNIC中國互聯網路信息中心2014年的數據顯示,10-29歲的