优达学城数据分析师纳米学位——P3项目知识点整理及代码分析

P3 OpenStreetMap 项目思路整理

P3项目的核心在于数据的整理 data cleaning 数据清洗,数据来源于开源的OpenStreetMap平台,该平台上的很多数据都是开发者自行输入的,难免会造成数据的混乱和缺失,错误,也就是所说的dirty data 脏数据 human involved

data cleaning的关注点 validity completeness accuracy consistency uniformity

validity 有效性 数据是否符合常理 人名不应该是数字

completeness 完整性 数据记录表格中的数据是否记录完整

accuracy 准确性  数据是否符合实际情况 一个国家的人口值,国土面积

consistency 一致性

uniformity 统一性  单位是否统一

项目评估准则 中的地图中遇到的问题:

举例 :使用蓝图的实例中  使用编写的audit()函数来统计道路名称的种类  代码使用了cElementTree 正则表达式(正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配)

图1. 统计所用的audit()函数代码

图2. 部分统计结果

XML (Extensible Markup Language)数据处理基础:

1. XML 与 HTML 关系: XML用来存储和传输数据 HTML用来展示数据 (XML可以自定义标签,具备自我描述性)

             XML将数据从HTML文件中分离出来,简化数据的传输,共享,更新

一个XML文件的示例 简单的一个便签文本

标签是处理的核心,读懂标签就能够对数据进行整理分类

树形结构文档 根元素,子元素,元素的属性

shil

构建http请求:待完成

时间: 2024-10-09 00:35:14

优达学城数据分析师纳米学位——P3项目知识点整理及代码分析的相关文章

优达学城数据分析师纳米学位——第一课总结

从1月13号信誓旦旦的付款了第一位的纳米学位到今天已经一周多的时间了,可以发现自己在完成任务的时候更多的在乎的是不是时间上达到了要求,而没有过多的关注于实质的内容.有时候看到课程的小节数很多就有一种畏惧感和烦躁的心情,逐渐的说服自己取放弃,这其实是一种观念上的偏差.可能是因为自己的性格比较急躁,很多事情都想要迅速的完成并且还能够保证质量,但是实际来说,只要方法得当,最后的成果总会和你投入的时间成正比,放平心态,一步一步慢慢来. 下面对第一课所学的内容做一个梳理和总结. 研究方法 数据可视化 集中

优达学城数据分析师纳米学位——第二课 jupyter notebook的使用

shift+Enter Control+Enter shift+tab 查看代码功能 tab显示相关包中的命令名称 ESC转换为命令操作 s 保存快捷键 命令行 小键盘图片 保存类型 Markdown html python文件 Markdown 单元格 使得代码更加易读  LaTeX free software可以编辑数学公式和符号 '配置Jupyter notebook' 6/11-markdown 单元格

优达学城机器学习工程师纳米学位项目介绍

本文由 meelo 原创,请务必以链接形式注明 本文地址,简书同步更新地址 一对一的项目辅导是优达学城(udacity)纳米学位的一大亮点.本文将简要介绍优达学城机器学习工程师纳米学位的6个项目.项目覆盖了机器学习的主要领域,包括回归分析.分类.聚类.增强学习及深度学习. 项目 0: 预测泰坦尼克号乘客生还率 这个项目需要你手动地实现一个简单的机器学习模型——决策树.1912年泰坦尼克号在第一次航行中与冰山碰撞沉没,泰坦尼克号乘客生还数据集记录了之中891个乘客的性别.年龄.社会阶级.配偶数量等

优达学城自动驾驶课程项目——车道检测

汽车在道路上行驶需要遵循一定的行驶规则,路面的车道则起到规范汽车行驶规则的作用.车道的种类有很多种,如单行线.双行线,虚线.网格线等,不同颜色.形状的车道线代表着不同的行驶规则,汽车和行人可以根据这些规则来使用道路,避免冲突.因此,准确检测并识别车道类型,并按照相应规则正确行驶,是汽车实现自动驾驶的基础. 优达学城的自动驾驶项目课程包含了一个车道线检测项目,其主要目的就是教给无人车如何检测并识别车道,本文档将该项目内容进行总结整理. 车道线检测方法主要分为两类:(1)基于道路特征的车道线检测:(

Udacity(优达学城) 300块红包优惠券

纳米学位:来自硅谷的名企官方课程 7天免费试用结束后,在"我的教室->设置->纳米学位->续费"页面上的优惠码区域,输入AF55BA53,立即减300元:

优达学城-并行编程-Unit2 通信模块、同步机制、原子操作

(一). Parallel communication Patterns 在上一章CUDA系列学习(二)CUDA memory & variables中我们介绍了memory和variable的不同类型,本章中根据不同的memory映射方式,我们将task分为以下几种类型:Map, Gather, Scatter, Stencil, transpose. 1.1 Map, Gather, Scatter Map: one input - one output Gather: several in

优达学城-并行编程-Unit2 硬件内存

GPU负责给SM分配wrap,SM以并行方式运行程序 在一个SM上跑的所有线程可能合作解决一个子问题(错的,不一定的) 一个单Kernel程序在多个wrap上运行,包含X线程块和Y线程块,可以确定x y先后跑的顺序或是在哪个SM上跑吗? 答:伐晓得(这是cuda的小秘密= =||) GPU的优越性: 1.快速切换SM运行,无法知其间通信 2.可扩展性强,GPU越大,任务分散越广 CUDA存储器类型: 每个线程拥有自己的register and loacal memory; 每个线程块拥有一块sh

数据分析师之Excel数据处理与分析实战

Excel数据处理与分析实战 课程学习地址:http://www.xuetuwuyou.com/course/191 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介 本门课程详细介绍了 Microsoft Excel 的应用知识,Excel也称为电子表格,是Microsoft office 套装软件的一个重要组成部分.利用它可以进行各种数据的混合运算外,还可以应用于财务会计.统计分析.证券管理.决策管理以及市场营销等众多领域.正因为它具有如此广泛的应用,所以才得

数据分析师常见的几种思路

  1.简单趋势 通过实时访问趋势了解产品使用情况,便于产品迅速迭代.访问用户量.访问来源.访问用户行为三大指标对于趋势分析具有重要意义. 2.多维分解 数据分析师可以根据分析需要,从多维度对指标进行分解.例如浏览器类型.操作系统类型.访问来源.广告来源.地区.网站/手机应用.设备品牌.APP版本等等维度. 3.转化漏斗 按照已知的转化路径,借助漏斗模型分析总体和每一步的转化情况.常见的转化情境有注册转化分析.购买转化分析等. 4.用户分群 在精细化分析中,常常需要对有某个特定行为的用户群组进行