人工智能第三课：数据科学中的Python

我用了两天左右的时间完成了这一门课《Introduction to Python for Data Science》的学习，之前对Python有一些基础，所以在语言层面还是比较顺利的，这门课程的最大收获是让我看到了在数据科学中Python的真正威力（也理解了为什么Python这么流行），同时本次课程的交互式练习体验（Datacamp）非常棒。

?

?

这门课程主要包括了6个单元的内容，一开始介绍了Python的基本概念（常见数据类型和变量），从第二节开始讲解列表在Python中的使用，并且逐步演进，我们还学习了使用真正为Data Science准备的几个package的应用。

?

?

从数据科学的角度来看，Python可能真的是很适合的一个编程语言和环境。这不光是因为他本身的语法比较简单，而且目前已经有几个非常强大的包（Package）对其进行支持。

?

?

Python中的list用来表示一系列的数据，它非常灵活，甚至可以在一个列表中包含不同类型的数据，当然这样也就带来了一定的负面作用，例如性能。而numpy的array则是对list的一种改进，它进行规划化（一个array的轴上只支持同一种数据类型），并提供了更多的一些与数据科学的运算（函数）。

?

?

它自身的运算规则也跟列表有极大的区别，例如

?

?

numpy库内置支持很多科学运算的函数，不需要依赖其他库

?

?

?

数据科学不光是对数据的处理，而且还需要对数据进行展示。目前全世界最流行的用来做数据可视化的库是matplotlib。

?

?

下图是一个最简单的例子

?

?

请注意，图形的数据来源既可以是List，也可以是Array，当然还可以是下面的终极解决方案DataFrame，来自pandas这个库。

?

numpy和matplotlib，可以很好地处理数据科学的场景。但如果数据量真的很大，则可能需要用到pandas了。

?

?

pandas提供了一个全新的dataframe的对象，它是完全为科学运算和统计而设计的，而且它自带了可视化组件库，不需要额外依赖matplotlib。

?

从技术上说，DataFrame很像是一个Excel表格或者数据库，它具有行和列的概念，也有索引的技术。

?

DataFrame还支持从外部文件（例如csv）或者网络地址加载数据，这将使得它真正具有实用的价值。

?

最后，我之前提到过了，本次课程给我最惊喜的一个体验是交互式练习。这是一个第三方学习平台（DataCamp）提供的，非常酷。

?

?

最后，基于Jupyter构建的notebooks.azure.com ，让我们可以在线编辑python，并且运行，形成笔记——不需要azure订阅即可使用。如果你愿意，你还可以在本地安装Jupyter。

?

本地安装Jupyter，请参考?https://jupyter.org/install.html

?

?

请通过?https://aka.ms/learningAI 或者扫描下面的二维码关注本系列文章《人工智能学习笔记》

?

原文地址：https://www.cnblogs.com/chenxizhang/p/10080918.html

时间： 2024-11-02 16:39:08

人工智能第三课：数据科学中的Python的相关文章

正确地学习数据科学中的Python，小白学习Python

大多数有抱负的数据科学家是通过学习为开发人员开设的编程课程开始认识 python 的,他们也开始解决类似 leetcode 网站上的 python 编程难题.他们认为在开始使用 python 分析数据之前,必须熟悉编程概念. 资深数据分析师 Manu Jeevan 认为,这是一个巨大的错误,因为数据科学家使用 python 来对数据进行检索.清洗.可视化和构建模型,而不是开发软件应用程序.实际上,为了完成这些任务,你必须将大部分时间集中在学习 python 中的模块和库上. 请按照下面这个步骤来

数据科学中R VS Python：获胜者是...

数据科学中R VS Python:获胜者是- 在"最佳"数据科学工具的比赛中,R和Python都有自己的优缺点.对二者的选择取决于使用背景,学习花费和其它经常使用工具的须要 Martijn Theuwissen发表于DataCamp. 在DataCamp,学生经常问我们他们日常数据分析任务使用R或Python.尽管我们主要是提供交互式R教程,我们总是回答这个问题取决于他们所面对的数据分析挑战的类型. R和Python都是流行的统计编程语言.R的功能由统计学家开发(想想R强大的数据可视化

爬虫第三课：互联网中网页的解析

基本步骤这节课们们的目的就是使用Requests模块+BeautifulSoup模块爬取网站上的信息首先爬取一个网站主要分两步 1.第一步我们要了解服务器与本地交换机制,选择正确的办法我们才能获取正确的信息. 2.我们需要了解一些解析真实网页获取信息的一些办法,还有一些思路服务器与本地交换机制我们先讲解一下服务器与本地的交换机制,首先我们先了解一个这样运作的常识,我们在平常浏览网页的时候,实际上我们使用浏览器点击每一个页面,都是向网站所在的服务器发起一个请求,我们称之为Request,而

数据科学中的R和Python: 30个免费数据资源网站

1 政府数据 Data.gov:这是美国政府收集的数据资源.声称有多达40万个数据集,包括了原始数据和地理空间格式数据.使用这些数据集需要注意的是:你要进行必要的清理工作,因为许多数据是字符型的或是有缺失值. Socrata:它是探索政府相数据的另一个好地方.Socrata的一个了不起的地方是,他们有不错的可视化工具,使研究数据更为容易. 一些城市都有自己的数据门户网站设置,可供访问者浏览城市的相关数据.例如,在旧金山数据网站,你可以获得很多数据,从犯罪统计到城市的停车位. 联合国有关网站,例如

Coredata第三课数据查询

问题小明班上最近月考了,老师大明想要给一部分优秀的同学进行奖励,而另外一部分要进行查漏补缺.大明决定将总分排名前10的,各科成绩排名前10的以及排名最后10名的按从高到低的顺序找出来.以前大明都是在家用笔一个个划出来.不过最近大明在长沙戴维营教育接受了残酷的iOS培训,决定装逼一把,给自己的"肾6+"开发了一款应用.只要各科老师将成绩提交给他,就可以直接看到这些学生的成绩了,并且各种曲线.柱状图.饼图.每个学生的情况就好比没穿衣服一样"透明".现在的问题是,大明并

ionic新手教程第三课-在项目中使用requirejs分离controller文件和server文件

继上篇教程中提到的,我们新建一个简单的tabs类型的Ionic项目. 依据文件夹文件我们知道,系统自己主动创建了一个controller文件和server文件,而且把全部的控制器和服务都写到这两个文件中面. 这是一个简单的项目,业务逻辑代码也非常少.这样子实现并没有什么问题.可是当我们的项目越写越多.业务逻辑越来越复杂.假设我们还是把全部的控制器写到同一个文件中面.那可能我们将要面对的就是一个有着上万行代码的文件. 每次编辑仅仅能通过搜索keyword来定位了. 所以真正编辑项目的时候我们应该都

《数据科学中的R语言》中文PDF+源代码

下载:https://pan.baidu.com/s/1xk-b3Y5-EYRvoheah-6kyQ 书籍PDF共计417页,配套源代码.国人所写的经典书籍.本书一切从实际应用出发,以R语言为核心工具,介绍了各类分析方法的实现及其在各领域的应用情况. 原文地址:http://blog.51cto.com/3215120/2307083

[数据科学] 从text, json文件中提取数据

文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/textfile.txt" f = open(fpath, 'r') ## 按照字符读取字符 first_char = f.read(1) print "first char: ", first_char ## 改变文件对象的位置, 位置是按照bytesize计算的 ## 如果不把位置

大数据科学新发展展望：不得不知的四大趋势

从2012年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天.从2016年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性IPO在国内外资本市场也不断出现.转眼间,大数据几年前经历的泡沫正在无可争议地转移到人工智能身上.可以说,在过去的一年,AI所经历的共同意识"大爆炸"与当年的大数据相比,有过之而无不及.最近风口又转移到区块链上了,某种程度上也成为业内人士焦虑的一种诱因了.

猜你喜欢

fdsgsdgsdgdfhfd

http://www.chinajsjgy.com/invest/show-18665.html http://saf5a.co.bokee.net/company/weblog_viewEntry/ ...

Vue命令行工具vue-cli

前面的话 Vue.js 提供一个官方命令行工具,可用于快速搭建大型单页应用.该工具提供开箱即用的构建工具配置,带来现代化的前端开发流程.只需几分钟即可创建并启动一个带热重载.保存时静态检查以及可用于生 ...

lduan SCVMM 2012 虚拟机模板（七）

(笔记)arm-linux-gcc/ld/objcopy/objdump参数总结

说明:gcc是编译器,负责对c代码的编译, ld是连接器负责将多个*.o的目标文件链接成elf可执行文件.elf可执行文件是unix常用的可执行文件类型,就像windows的exe文件.elf文件中 ...

Linux下相关问题

1.Linux下处理PermGen space(内存溢出),在"catalina.sh"文件的"cygwin=false"上面加入以下行: JAVA_OPTS= ...

Citrix XenDesktop Studio 7.x & StoreFront控制台打开速度慢终极优化

部署过CitrixXenDesktop的同学们都知道,Studio控制台与StoreFront控制台某些时候打开慢的那叫一个纠结啊,尤其是等待排除某些问题的时候,等待是很煎熬的,好了废话少说,下面我来 ...

C#中的值类型与引用类型

这些天学习C#,看到里面的值类型与引用类型,例如结构是值类型,类是引用类型,然后立马想到了C++中的类,那么C++中的类是什么类型呢,哈哈,忽然间有点迷惑,上网搜了搜还真有很多小伙伴们已经晕进去了,今 ...

(转载)ubuntu 搭建wordpress 并用nginx配置代理

下载Wordpress wget http://wordpress.org/latest.tar.gz 解压文件包.假设解压至用户的主目录中. tar -xzvf latest.tar.gz 创建Wo ...

关于QFTP乱码

// 从FTP接收的内容QString FtpUtil::_FromSpecialEncoding(const QString &InputStr){ #ifdef Q_OS_WIN retu ...

hibernate中带查询条件的分页

所谓分页,从数据库中分,则是封装一个分页类.利用分页对象进行分页. 但,分页往往带查询条件. 分页类的三个重要数据:[当前页码数],[数据库中的总记录数],[每页显示的数据的条数] 原理:select ...

AS下NDK开发（一）

捣鼓了一天的NDK,总结下. Eclipse下开发ndk好像挺麻烦的样子,看书上要下载Cygwin,eclipse还要下载插件CDT..而在AS上就方便多啦.下载android ndk.安装,配置环境 ...

关于压力测试

今天写代码的时候突然想到给自己的代码进行压力测试,记得以前用过python写过,但是效果不怎么好,最近java写的比较多,就尝试使用java写一下先写一下思路: 做压力测试首先要模拟线程并发的状况, ...

IntelliJ IDEA Spark源码分析

在对 Spark 有了一定使用经验后,为了能够跟进 Spark 源代码的开发进展,对其源代码进行详细的阅读分析,本文详细说明了如何使用 IntelliJ IDEA 从 Github 上导入最新的 Sp ...

创建cocos2dx lua 工程

-- 引擎版本 coco2dx 3.1.1 引擎的创建过程实际上从 hellolua 复制了一份出来,然后更改包名,路径名. 需要注意的是,通过命令行build的时候每次都会复制一堆脚本出来,这其中包 ...

一封来自项目经理拟给总经理李X的信

尊敬的总经理李X先生: 您好,启封温暖. 很久没有这般正式写一封信了,也算是职业生涯中第一给经理级别写信.而为什么给您写(先表明绝无僭越之心),因为您负责公司内部事务,希望您能体会我仅以个人角度,立足 ...

用virtualenv建立多个Python独立虚拟开发环境

1.安装virtualenv: pip install virtualenv 2.创建一个python的虚拟环境: virtualenv test_demo 用virtualenv创建虚拟环境,是通过 ...

使用SharedPreferences即时存储之后，不能即时获取到数据

在这里简介一下我所遇到的情况,由于情况非常特殊,所以我就来记录一下自己在这个方面的经历! 事由:在我所做的app中有一个视频的播放功能,因为之前做优化的时候.我听说对于视频这种比較耗费资源的应该给他独 ...

ios9-NSLayoutAnchor和UILayoutGuide实现自动布局

@interface ViewController () { NSLayoutConstraint *yellowViewTopConstraint; NSLayoutConstraint *blue ...

hdu4888 Redraw Beautiful Drawings

14更多学校的第二个问题网络流量分别以行,列作为结点建图 i行表示的结点到j列表示的结点的流量便是(i, j)的值跑遍最大流若满流了便是有解推断是否unique 就是在残余网络 ...

HDU1789时间贪心

Doing Homework again Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Oth ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.