人工智能第三课:数据科学中的Python

我用了两天左右的时间完成了这一门课《Introduction to Python for Data Science》的学习,之前对Python有一些基础,所以在语言层面还是比较顺利的,这门课程的最大收获是让我看到了在数据科学中Python的真正威力(也理解了为什么Python这么流行),同时本次课程的交互式练习体验(Datacamp)非常棒。

?

?

这门课程主要包括了6个单元的内容,一开始介绍了Python的基本概念(常见数据类型和变量),从第二节开始讲解列表在Python中的使用,并且逐步演进,我们还学习了使用真正为Data Science准备的几个package的应用。

?

?

从数据科学的角度来看,Python可能真的是很适合的一个编程语言和环境。这不光是因为他本身的语法比较简单,而且目前已经有几个非常强大的包(Package)对其进行支持。

?

?

Python中的list用来表示一系列的数据,它非常灵活,甚至可以在一个列表中包含不同类型的数据,当然这样也就带来了一定的负面作用,例如性能。而numpy的array则是对list的一种改进,它进行规划化(一个array的轴上只支持同一种数据类型),并提供了更多的一些与数据科学的运算(函数)。

?

?

它自身的运算规则也跟列表有极大的区别,例如

?

?

numpy库内置支持很多科学运算的函数,不需要依赖其他库

?

?

?

数据科学不光是对数据的处理,而且还需要对数据进行展示。目前全世界最流行的用来做数据可视化的库是matplotlib。

?

?

下图是一个最简单的例子

?

?

请注意,图形的数据来源既可以是List,也可以是Array,当然还可以是下面的终极解决方案DataFrame,来自pandas这个库。

?

numpy和matplotlib,可以很好地处理数据科学的场景。但如果数据量真的很大,则可能需要用到pandas了。

?

?

pandas提供了一个全新的dataframe的对象,它是完全为科学运算和统计而设计的,而且它自带了可视化组件库,不需要额外依赖matplotlib。

?

从技术上说,DataFrame很像是一个Excel表格或者数据库,它具有行和列的概念,也有索引的技术。

?

DataFrame还支持从外部文件(例如csv)或者网络地址加载数据,这将使得它真正具有实用的价值。

?

最后,我之前提到过了,本次课程给我最惊喜的一个体验是交互式练习。这是一个第三方学习平台(DataCamp)提供的,非常酷。

?

?

最后,基于Jupyter构建的notebooks.azure.com ,让我们可以在线编辑python,并且运行,形成笔记——不需要azure订阅即可使用。如果你愿意,你还可以在本地安装Jupyter。

?

本地安装Jupyter,请参考?https://jupyter.org/install.html

?

?

请通过?https://aka.ms/learningAI 或者扫描下面的二维码关注本系列文章《人工智能学习笔记》

?

原文地址:https://www.cnblogs.com/chenxizhang/p/10080918.html

时间: 2024-11-02 16:39:08

人工智能第三课:数据科学中的Python的相关文章

正确地学习数据科学中的Python,小白学习Python

大多数有抱负的数据科学家是通过学习为开发人员开设的编程课程开始认识 python 的,他们也开始解决类似 leetcode 网站上的 python 编程难题.他们认为在开始使用 python 分析数据之前,必须熟悉编程概念. 资深数据分析师 Manu Jeevan 认为,这是一个巨大的错误,因为数据科学家使用 python 来对数据进行检索.清洗.可视化和构建模型,而不是开发软件应用程序.实际上,为了完成这些任务,你必须将大部分时间集中在学习 python 中的模块和库上. 请按照下面这个步骤来

数据科学中R VS Python:获胜者是...

数据科学中R VS Python:获胜者是- 在"最佳"数据科学工具的比赛中,R和Python都有自己的优缺点.对二者的选择取决于使用背景,学习花费和其它经常使用工具的须要 Martijn Theuwissen发表于DataCamp. 在DataCamp,学生经常问我们他们日常数据分析任务使用R或Python.尽管我们主要是提供交互式R教程,我们总是回答这个问题取决于他们所面对的数据分析挑战的类型. R和Python都是流行的统计编程语言.R的功能由统计学家开发(想想R强大的数据可视化

爬虫第三课:互联网中网页的解析

基本步骤 这节课们们的目的就是使用Requests模块+BeautifulSoup模块爬取网站上的信息 首先爬取一个网站主要分两步 1.第一步我们要了解服务器与本地交换机制,选择正确的办法我们才能获取正确的信息. 2.我们需要了解一些解析真实网页获取信息的一些办法,还有一些思路 服务器与本地交换机制 我们先讲解一下服务器与本地的交换机制,首先我们先了解一个这样运作的常识,我们在平常浏览网页的时候,实际上我们使用浏览器点击每一个页面,都是向网站所在的服务器发起一个请求,我们称之为Request,而

数据科学中的R和Python: 30个免费数据资源网站

1 政府数据 Data.gov:这是美国政府收集的数据资源.声称有多达40万个数据集,包括了原始数据和地理空间格式数据.使用这些数据集需要注意的是:你要进行必要的清理工作,因为许多数据是字符型的或是有缺失值. Socrata:它是探索政府相数据的另一个好地方.Socrata的一个了不起的地方是,他们有不错的可视化工具,使研究数据更为容易. 一些城市都有自己的数据门户网站设置,可供访问者浏览城市的相关数据.例如,在旧金山数据网站,你可以获得很多数据,从犯罪统计到城市的停车位. 联合国有关网站,例如

Coredata第三课 数据查询

问题 小明班上最近月考了,老师大明想要给一部分优秀的同学进行奖励,而另外一部分要进行查漏补缺.大明决定将总分排名前10的,各科成绩排名前10的以及排名最后10名的按从高到低的顺序找出来.以前大明都是在家用笔一个个划出来.不过最近大明在长沙戴维营教育接受了残酷的iOS培训,决定装逼一把,给自己的"肾6+"开发了一款应用.只要各科老师将成绩提交给他,就可以直接看到这些学生的成绩了,并且各种曲线.柱状图.饼图.每个学生的情况就好比没穿衣服一样"透明".现在的问题是,大明并

ionic新手教程第三课-在项目中使用requirejs分离controller文件和server文件

继上篇教程中提到的,我们新建一个简单的tabs类型的Ionic项目. 依据文件夹文件我们知道,系统自己主动创建了一个controller文件和server文件,而且把全部的控制器和服务都写到这两个文件中面. 这是一个简单的项目,业务逻辑代码也非常少.这样子实现并没有什么问题.可是当我们的项目越写越多.业务逻辑越来越复杂.假设我们还是把全部的控制器写到同一个文件中面.那可能我们将要面对的就是一个有着上万行代码的文件. 每次编辑仅仅能通过搜索keyword来定位了. 所以真正编辑项目的时候我们应该都

《数据科学中的R语言》中文PDF+源代码

下载:https://pan.baidu.com/s/1xk-b3Y5-EYRvoheah-6kyQ 书籍PDF共计417页,配套源代码.国人所写的经典书籍.本书一切从实际应用出发,以R语言为核心工具,介绍了各类分析方法的实现及其在各领域的应用情况. 原文地址:http://blog.51cto.com/3215120/2307083

[数据科学] 从text, json文件中提取数据

文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/textfile.txt" f = open(fpath, 'r') ## 按照字符读取字符 first_char = f.read(1) print "first char: ", first_char ## 改变文件对象的位置, 位置是按照bytesize计算的 ## 如果不把位置

大数据科学新发展展望:不得不知的四大趋势

从2012年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天.从2016年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性IPO在国内外资本市场也不断出现.转眼间,大数据几年前经历的泡沫正在无可争议地转移到人工智能身上.可以说,在过去的一年,AI所经历的共同意识"大爆炸"与当年的大数据相比,有过之而无不及.最近风口又转移到区块链上了,某种程度上也成为业内人士焦虑的一种诱因了.