Python数据分析开发环境及numpy矩阵操作

准备工作

下载并安装最新版本的Anaconda

下载并安装最新版本的Visual Studio Code

编辑器

Tips:

可以选择自己喜欢并且熟悉的编辑器或IDE。如:VIM、Emacs、Notepad++、Sublime、Pycharm等。

如果安装的是完整版本的Anaconda,会默认安装Spyder以及Jupyter Notebook。那么不想折腾编辑器的话,推荐使用这两款应用是足够的。

Visual Studio Code

推荐插件

  • Python

可选插件

  • vscode-icons

包管理器选择

Conda

Conda是目前比较常用的包管理工具,其大致功用于pip类似,这里使用Conda的原因,主要在于Conda除可以安装python的包外,还可以很方便的安装其他变成语言的包(如C++、C等)。这样的话,就可以很方便的解决有些数据分析的包依赖非python编写的程序包的问题。

为了能够直接在命令行中使用conda命令,这里将Anaconda3\Scripts目录添加到了环境变量中。

基本使用

创建虚拟环境:conda create -n <env_name> python=<python_version_num>

激活虚拟环境:activate <env_name>

安装程序包到指定虚拟环境:conda install -n <env_name> <pakcage_name>

关闭虚拟环境:deactivate

删除虚拟环境:conda remove <env_name> --all

删除虚拟环境中的某个包:conda remove --name <env_name> <package_name>

查看已安装包:conda list

查看已安装环境:conda env list

检查更新conda:conda update conda

更新所有程序包:conda update --all

常用包安装

安装好Anaconda后,可以使用Anaconda来管理包的安装。

如果是用于学习与研究,而不用与其他人协作或者能够有良好的约定的话,那么可以直接使用conda的默认的环境,这样就可以少安装很多包。


REM 基础包

conda install numpy
conda install scipy
conda install pandas
conda install matplotlib

REM ORM,用于连接数据库

conda install sqlalchemy

更改Conda的下载镜像

如果要使用的包并不包含在默认的conda环境中,又想加快下载速度与稳定性的话,可以添加国内的下载镜像。

在终端中执行以下命令:


conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

参考:

  1. Anaconda 镜像使用帮助

PIP

因为某些原因使用Conda可能无法顺利安装一些包,那么可以使用PIP来进行安装。


REM 更新PIP

python -m pip install --upgrade pip

REM 中国股票数据获取

pip install tushare

REM 导出当前环境所有依赖包信息

pip freeze > requirements.txt

REM 根据导出的依赖包信息安装包

pip install -r requirements.txt -d <your_download_dir>

常用包推荐

数据获取&爬虫

  • Tushare:提供便捷的国内股票行情数据的获取(自动爬取相关网站数据)
  • requests:一款优秀的HTTP Request包,可以用于与HTML/XML解析的包结合起来制作爬虫工具。
  • urllib:Python3的内置包,主要用于访问、解析指定URL。
  • Beautiful Soup:一个可以从HTML或XML文件中提取数据的Python库。

数据整理

  • Numpy:提供强大的矩阵操作,以及一些非常有用的计算工具(如:irr、npv等)
  • Pandas:提供强大的数据框操作(类似R语言中的DataFrame)
  • SciPy:提供强大的统计工具。

数据可视化

数据库操作

  • sqlalchemy:数据库建议使用自己熟悉的或项目统一要求的,如:Oracle、MySQL、PostgreSQL、MSSQL、SQLite等。sqlalchemy包可以有效的连接各类常用的数据库,并处理各类操作。

Numpy

通过观察Python的自有数据类型,我们可以发现Python原生并不提供多维数组的操作,那么为了处理矩阵,就需要使用第三方提供的相关的包。

NumPy 是一个非常优秀的提供矩阵操作的包。NumPy的主要目标,就是提供多维数组,从而实现矩阵操作。

NumPy’s main object is the homogeneous multidimensional array. It is a table of elements (usually numbers), all of the same type, indexed by a tuple of positive integers. In NumPy dimensions are called axes.

基本操作

#######################################
# 创建矩阵
#######################################
from numpy import array as matrix, arange

# 创建矩阵
a = arange(15).reshape(3,5)
a

# Out[10]:
# array([[0., 0., 0., 0., 0.],
#        [0., 0., 0., 0., 0.],
#        [0., 0., 0., 0., 0.]])

b = matrix([2,2])
b

# Out[33]: array([2, 2])

c = matrix([[1,2,3,4,5,6],[7,8,9,10,11,12]], dtype=int)
c

# Out[40]:
# array([[ 1,  2,  3,  4,  5,  6],
#        [ 7,  8,  9, 10, 11, 12]])
#######################################
# 创建特殊矩阵
#######################################
from numpy import zeros, ones,empty

z = zeros((3,4))
z

# Out[43]:
# array([[0., 0., 0., 0.],
#        [0., 0., 0., 0.],
#        [0., 0., 0., 0.]])

o = ones((3,4))
o

# Out[46]:
# array([[1., 1., 1., 1.],
#        [1., 1., 1., 1.],
#        [1., 1., 1., 1.]])

e = empty((3,4))
e

# Out[47]:
# array([[0., 0., 0., 0.],
#        [0., 0., 0., 0.],
#        [0., 0., 0., 0.]])
#######################################
# 矩阵数学运算
#######################################
from numpy import array as matrix, arange

a = arange(9).reshape(3,3)
a

# Out[10]:
# array([[0, 1, 2],
#        [3, 4, 5],
#        [6, 7, 8]])

b = arange(3)
b

# Out[14]: array([0, 1, 2])

a + b

# Out[12]:
# array([[ 0,  2,  4],
#        [ 3,  5,  7],
#        [ 6,  8, 10]])

a - b

# array([[0, 0, 0],
#        [3, 3, 3],
#        [6, 6, 6]])

a * b

# Out[11]:
# array([[ 0,  1,  4],
#        [ 0,  4, 10],
#        [ 0,  7, 16]])

a < 5

# Out[12]:
# array([[ True,  True,  True],
#        [ True,  True, False],
#        [False, False, False]])

a ** 2

# Out[13]:
# array([[ 0,  1,  4],
#        [ 9, 16, 25],
#        [36, 49, 64]], dtype=int32)

a += 3
a

# Out[17]:
# array([[ 3,  4,  5],
#        [ 6,  7,  8],
#        [ 9, 10, 11]])
#######################################
# 矩阵内置操作
#######################################
from numpy import array as matrix, arange

a = arange(9).reshape(3,3)
a

# Out[10]:
# array([[0, 1, 2],
#        [3, 4, 5],
#        [6, 7, 8]])

a.max()

# Out[23]: 8

a.min()

# Out[24]: 0

a.sum()

# Out[25]: 36
#######################################
# 矩阵索引、拆分、遍历
#######################################
from numpy import array as matrix, arange

a = arange(25).reshape(5,5)
a

# Out[9]:
# array([[ 0,  1,  2,  3,  4],
#        [ 5,  6,  7,  8,  9],
#        [10, 11, 12, 13, 14],
#        [15, 16, 17, 18, 19],
#        [20, 21, 22, 23, 24]])

a[2,3]      # 取第3行第4列的元素

# Out[3]: 13

a[0:3,3]    # 取第1到3行第4列的元素

# Out[4]: array([ 3,  8, 13])

a[:,2]      # 取所有第二列元素

# Out[7]: array([ 2,  7, 12, 17, 22])

a[0:3,:]    # 取第1到3行的所有列

# Out[8]:
# array([[ 0,  1,  2,  3,  4],
#        [ 5,  6,  7,  8,  9],
#        [10, 11, 12, 13, 14]])

a[-1]   # 取最后一行

# Out[10]: array([20, 21, 22, 23, 24])

for row in a:   # 逐行迭代
    print(row)

# [0 1 2 3 4]
# [5 6 7 8 9]
# [10 11 12 13 14]
# [15 16 17 18 19]
# [20 21 22 23 24]

for element in a.flat:  # 逐元素迭代,从左到右,从上到下
    print(element)

# 0
# 1
# 2
# 3
# ...
#######################################
# 改变矩阵
#######################################
from numpy import array as matrix, arange

b = arange(20).reshape(5,4)

b

# Out[18]:
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [ 8,  9, 10, 11],
#        [12, 13, 14, 15],
#        [16, 17, 18, 19]])

b.ravel()

# Out[16]:
# array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
#        17, 18, 19])

b.reshape(4,5)

# Out[17]:
# array([[ 0,  1,  2,  3,  4],
#        [ 5,  6,  7,  8,  9],
#        [10, 11, 12, 13, 14],
#        [15, 16, 17, 18, 19]])

b.T     # reshape 方法不改变原矩阵的值,所以需要使用  .T  来获取改变后的值

# Out[19]:
# array([[ 0,  4,  8, 12, 16],
#        [ 1,  5,  9, 13, 17],
#        [ 2,  6, 10, 14, 18],
#        [ 3,  7, 11, 15, 19]])
#######################################
# 合并矩阵
#######################################
from numpy import array as matrix,newaxis
import numpy as np

d1 = np.floor(10*np.random.random((2,2)))
d2 = np.floor(10*np.random.random((2,2)))

d1

# Out[7]:
# array([[1., 0.],
#        [9., 7.]])

d2

# Out[9]:
# array([[0., 0.],
#        [8., 9.]])

np.vstack((d1,d2))  # 按列合并

# Out[10]:
# array([[1., 0.],
#        [9., 7.],
#        [0., 0.],
#        [8., 9.]])

np.hstack((d1,d2))  # 按行合并

# Out[11]:
# array([[1., 0., 0., 0.],
#        [9., 7., 8., 9.]])

np.column_stack((d1,d2)) # 按列合并

# Out[13]:
# array([[1., 0., 0., 0.],
#        [9., 7., 8., 9.]])

c1 = np.array([11,12])
c2 = np.array([21,22])

np.column_stack((c1,c2))

# Out[14]:
# array([[11, 21],
#        [12, 22]])

c1[:,newaxis]   # 添加一个“空”列

# Out[18]:
# array([[11],
#        [12]])

np.hstack((c1,c2))

# Out[27]: array([11, 12, 21, 22])

np.hstack((c1[:,newaxis],c2[:,newaxis]))

# Out[28]:
# array([[11, 21],
#        [12, 22]])

参考

  1. NumPy官方文档

原文地址:https://www.cnblogs.com/abdm-989/p/12129141.html

时间: 2024-10-11 22:48:02

Python数据分析开发环境及numpy矩阵操作的相关文章

【转】windows和linux中搭建python集成开发环境IDE

http://blog.csdn.net/pipisorry/article/details/39854707 使用的系统及软件Ubuntu / windowsPython 2.7 / python 3Pycharm 2.6.3Openjdk Postgresql 9.1VirtualenvVirtualenvwrapper{开始之前,可以给系统做一下备份.如误安装了Postgresql,出现了大问题就不得不把系统给重装了} 安装python 安装python 1. Ubuntu 12.04系统

windows下python web开发环境的搭建

windows下python web开发环境: python2.7,django1.5.1,eclipse4.3.2,pydev3.4.1 一. python环境安装 https://www.python.org/ftp/python/2.7/python-2.7.amd64.msi 不多说,装完后把C:\Python27加入到path环境变量里. 然后就溜溜python,看看version啦.OK,next step. 二. python web开发框架django安装 django是一个采用

mac 配置Python集成开发环境

mac 配置Python集成开发环境(Eclipse +Python+Pydev) 1.下载Mac版64位的Eclipse. 进入到Eclipse官方网站的下载页面(http://www.eclipse.org/downloads/),我选择了下图所示的软件包, 浏览器在下载过程中使用的超链接 http://ftp.daum.net/eclipse//technology/epp/downloads/release/mars/R/eclipse-jee-mars-R-macosx-cocoa-x

在windows下用eclipse + pydev插件来配置python的开发环境

一.安装 python 可以到网上下个Windows版的python,官网为:https://www.python.org/downloads/下好后直接安装就ok了.最后记得配置一下环境变量,具体操作如下: 1)在计算机属性的环境变量配置中找到path, 2 )编辑path值,添加你安装的python路径, 3)检验python是否安装配置成功,打开cmd,输入python,如果出现以下界面,则说 明你的python安装成功了 二.安装eclipse插件 装插件的前提是先安装eclipse,e

[零基础学python]集成开发环境(IDE)

当安装好python之后,其实就已经可以进行开发了.下面我们开始写第一行python代码. 值得纪念的时刻:Hello world 如果是用windows,请打开CMD,并执行python. 如果是UNIX类的,就运行shell,并执行python. 都会出现如下内容: Python 2.7.6 (default, Nov 13 2013, 19:24:16) [GCC 4.6.3] on linux2 Type "help", "copyright", "

windows和linux中搭建python集成开发环境IDE——如何设置多个python环境

本系列分为两篇: 1.[转]windows和linux中搭建python集成开发环境IDE 2.[转]linux和windows下安装python集成开发环境及其python包 3.windows和linux中搭建python集成开发环境IDE——如何设置多个python环境 Install Python packages on Ubuntu 14.04 from chris' sandbox In this post I will document my setup of Python 2.7

10个好用的Python集成开发环境简析

Python IDE工具是每个Python工程师必须使用的开发工具,选择正确的编辑器对Python编程效率的影响是非常大的,因此选择合适的Python开发工具十分重要,以下是通过长期实践发掘的好用的Python IDE,它们功能丰富,性能先进,能够帮助开发人员快速的进行应用程序开发. 1. Pydev + Eclipse – 最好的免费python IDE Pydev的是Python IDE中使用最普遍的,原因很简单,它是免费的,同时还提供很多强大的功能来支持高效的Python编程.Pydev是

用virtualenv建立多个Python独立开发环境

不同的人喜欢用不同的方式建立各自的开发环境,但在几乎所有的编程社区,总有一个(或一个以上)开发环境让人更容易接受. 使用不同的开发环境虽然没有什么错误,但有些环境设置更容易进行便利的测试,并做一些重复/模板化的任务,使得在每天的日常工作简单并易于维护. 什么是virtualenv? 在Python的开发环境的最常用的方法是使用 virtualenv 包. Virtualenv是一个用来创建独立的Python环境的包.现在,出现了这样的问题:为什么我们需要一个独立的Python环境? 要回答这个问

转-在Mac OS上搭建Python的开发环境

在Mac OS上搭建Python的开发环境 本文转载自:http://www.jb51.net/article/76931.htm 一. 安装python mac系统其实自带了一个python的执行执行环境,用来运行python还行,但是开发可能就不够了,因此我们需要重新安装python.这里有两种方案安装: 1.homebrew 1 brew install python 这个方案比较简单,如果出错的话可以给前面加sudo试试,这个安装的python可能不是最新版. 2.从官网下载安装大家可以