Google Professional Data Engineer(PDE)考试

在国内参加PDE考试的人比较少,导致资料也很少。我在19年1月30号去上海参加PDE考试,参加前也是完全没底,因为时间短资料少,但幸运的是顺利通过了。回过头来看,其中有些技巧和重点,在此做一些总结,希望可以给参加PDE考试的同学提供一些帮助。

收获

1)对云有新的认识
2)对大数据架构、机器学习架构设计有新的认识
3)当然最重要的是获得google官方发的证书

说说我的准备

1)花了5周的时间看完google官方提供的视频,几乎是完全脱产(只做一些事故处理)。
2)试做官方提供example,一共20道题,我错了五道。我错的主要是安全和BigTable相关的。
3)google的同学建议是看concept的相关内容,但离考试也就剩三四天了,不可能详细复习,concept是一定看不完的。那么就针对没有掌握的知识进行复习,安全相关的官方视频是没有涉及的,所以必须自己找资料看,别的资料也没有,就只能看concept中涉及安全的方便,这个比较少,最多一天就全部看完。BigTable看来我也是掌握不好,那么我就看BigTable的concept知识。
4)看完上面的就参加考试了,也再没做特别复习。

整体来看

google的产品大致涉及存储(cloud storage、SQL、spanner、memory、BigTable、datastore)、消息中间件Pub\Sub、计算(dataproc、BigQuery、Dataflow)、机器学习ML Engine、API、DataLab以及可视化。各个产品的使用场景必须心里有数,如果看完视频忘了,必须重新复习,最好和开源对应起来,因为开源多多少少有点儿了解,不要从头学习google cloud所有产品知识。

思维转变

把自己定位为产品解决方案工程师,不是找最优解,而是找最适合案例的解决方案。

产品详情

Cloud SQL & spanner

Cloud SQL 就是mysql\postsql的单机版,google帮你做了安装部署和管理(安全、备份等),如果需要水平扩展就是spanner了,而且支持事务,这两个产品的应用场景就是应用交易记录等。

cloud storage

就是存储引擎,什么都可以放,没有大小文件、结构化和非结构化的限制,利用好存储级别(正常、nearline(月级访问)和cold(年级访问))可以节约成本。

BigTable

考试重点。注意key值的设置,如何避免热点问题,时间序列的问题大部分就是选BigTable存储,BigTable适用于时延性要求高的场景。

datastore

类似于mongodb,通过属性来查询,不是重点。

BigQuery

考试重点。注意安全和视图相关知识,数据存储在BigQuery和存储在cloud storage的价钱差不多,根据使用情况,会自动处理存储介质,降低价格,一定要合理利用BigQuery。

Dataproc

主要是为了适应客户原来使用hadoop堆栈,现在不像修改代码,就像上云的场景。

dataflow

是google大力推进的产品,是替代Dataproc的下一代计算引擎,实现自动扩缩容,并且流处理和批处理代码保持一致。题外话:dataflow和bigquery(秒级响应)是google大数据方面两大杀伤性武器,区别于其他云的地方。

Pub\Sub

Pub\Sub和dataflow配合使用处理事件流,延时性要求高选用BigTable存储,不高选用BigQuery。

ML Engine

tensorflow的云化版,实现离线训练和在线服务的自动化,配合dataprep可以实现离线数据的预处理,datalab(jupyter notebook)实现数据探索和离线训练。

Auto ML

Auto ML是为了丰富API,容许用户自己提供数据,对模型进行训练。

综述

其实知识点也不那么难,最后难得可能是英语这一关,视频和考试全英语。祝大家顺利通过考试。

如果有疑问欢迎关注下面公众号进行交流。

原文地址:https://www.cnblogs.com/jacksu-tencent/p/10358662.html

时间: 2024-10-05 22:37:41

Google Professional Data Engineer(PDE)考试的相关文章

数据分析师(Data Analyst),数据工程师(Data Engineer),数据科学家(Data Scientist)的区别

数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策.工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据进行分析),总结结论并提出建议.数据分析师通常从业务团队那里获取需要分析的具体问题,并提供相应的解决方案.高级数据分析师还需要了解各种模型(如线性回归,决策树等),并能调包实现这些模型. 需要掌握的技能有:熟悉业务,会使用excel,ppt等基本工具,了解统计分析方法,会使用SQL从数据库提取数据,

PrestaShop 修复Google Structured Data Testing Tool 报错

转载请注明出处:http://www.cnblogs.com/zhong-dev/p/4943065.html 网店版本 Prestashop v1.6 上图红框的地方,会缺少两个字段:price 和 priceCurrency,这个就需要修改模板了:product-list.tpl 解决方案: 使用 ftp 工具,进入到 Themes,进入目前使用的主题,找到 product-list.tpl 文件.使用 sublime 等编辑工具,搜索 href="http://schema.org/InS

6 Useful Databases to Dig for Data (and 100 more)

6 Useful Databases to Dig for Data (and 100 more) You already know that data is the bread and butter of reports and presentations. Data makes your presentation solid. It backs up the ideas you are selling. It gives people reasons to listen to you. Ho

P6 Professional Installation and Configuration Guide (Microsoft SQL Server Database) 16 R1

P6 Professional Installation and Configuration Guide (Microsoft SQL Server Database) 16 R1       May 2016 Contents About This Guide...................................................................................... 11 Shared Topics in This Guide .

Android隐式启动Activity匹配详解:Action,category,data

更多例子请参考:http://hi.baidu.com/wishwingliao/blog/item/0a38ccfce06f39e8fc037f85.html 隐式启动Activity的intent到底发给哪个activity,需要进行三个匹配,一个是action,一个是category,一个是data,可以是全部或部分匹配 同样适用于Service和BroadcastReceiver,下面是以Activity为例 MainActivity.java --主Activity TestActiv

google/protobuf hello world

/(ㄒoㄒ)/~~ 官网被墙 1. github > Search > protobuf or protocol buffers 2.https://github.com/google/protobuf 3. releases 4. protoc-3.0.0-alpha-2-win32.zip   readme.txt Protocol Buffers - Google's data interchange format Copyright 2008 Google Inc. https://d

Google的C++开源代码项目

v8  -  V8 JavaScript Engine V8 是 Google 的开源 JavaScript 引擎. V8 采用 C++ 编写,可在谷歌浏览器(来自 Google 的开源浏览器)中使用. V8 根据 ECMA-262 第三版中的说明使用 ECMAScript,并在使用 IA-32 或 ARM 处理器的 Windows XP 和 Vista.Mac OS X 10.5 (Leopard) 以及 Linux 系统中运行. V8 可以独立运行,也可以嵌入任何 C++ 应用程序中. na

Why Apache Beam? A data Artisans perspective

https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison https://github.com/apache/incubator-beam https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-101 https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-102 h

6月7 考试系统

类似于驾校考试的考试系统 使用到的是数据库表名为: yhks(用户考试)表,yhkstm(用户考试题目)表,kemu(科目)表,shititimu(试题题目)表,xuanxiang(选项)表,timu(题目)表,shiti(试题)表 实现的功能: 1.进入考试界面 2.点击确定会进一步的确认以防按错 3.考试界面实现倒计时一次一道题点击确定自动跳转下一题 4.点击交卷并显示答案 代码部分(php代码在test0607) 1.选择考试 1.1选择考试后台代码----xuanzeks.php <?p