Numpy 基础学习

Numpy是python科学计算的基础包，为python提供快速的数组处理能力，也可以作为在算法之间传递数据的容器

安装相关软件包

安装需要的包

pip3 install numpy/pandas/mtaplotlib/ipython/scipy/xlrd/lxml/basemap/pymogo/PyQt/statsmodels/PyTables

验证ipython

Numpy

NumPy的主要对象是同质多维数组。它是一张表，所有元素（通常是数字）的类型都相同，并通过正整数元组索引。在NumPy中，维度称为轴。轴的数目为秩rank。

ndarray 是一个数据多维容器，所以，其中所有的元素类型必须是相同的，每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype(一个用于说明数组数据类型的对象)

Numpy的ndarray：一种多维数组对象

例如:

3D空间中的点的坐标[1, 2, 1]是rank为1的数组，因为它具有一个轴。该轴的长度为3。在下面所示的示例中，数组的rank为2（它是2维的）。

第一维度（轴）的长度为2，第二维度的长度为3。
[[ 1., 0., 0.],[ 0., 1., 2.]]

NumPy的数组的类称为ndarray。别名为array

实例代码与说明：

In [48]: import numpy as np

In [49]: a = np.arange(15).reshape(3,5)　　#reshape可以理解为设置维度，3行5列

In [50]: a
Out[50]:
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14]])

数组的维度shape。这是一个整数的元组，表示每个维度中数组的大小。

对于具有n行和m列的矩阵，shape将是(n,m)。因此，shape元组的长度就是rank或维度的个数ndim。

In [51]: a.shape
Out[51]: (3, 5)

In [52]: a.ndim    ##数组的轴（维度）的个数。在Python中，维度的数量被称为rank。
Out[52]: 2

In [58]: a.size    ##数组元素的总数。这等于shape的元素的乘积。
Out[58]: 15

##数组中每个元素的字节大小。例如，元素为float64类型的数组的itemsize为8（=64/8），而complex32类型的数组的comitemsize为4（=32/8）。它等于ndarray.dtype.itemsize。
In [53]: a.itemsize
Out[53]: 8

In [54]: type(a)
Out[54]: numpy.ndarray

In [55]: b = np.array([6,7,8])

In [56]: b
Out[56]: array([6, 7, 8])

创建数组

创建数组最简单的方法用array函数，array函数会为数组推断出一个合适的数据类型，数据类型保存在dtype对象中，例如

In [4]: data = [5,3,11,2.3,0]

In [5]: arr1 = np.array(data)

In [6]: arr1
Out[6]: array([  5. ,   3. ,  11. ,   2.3,   0. ])

In [7]: data2 = [[1,2,4,5],[5,6,7,8]]

In [8]: arr2 = np.array(data2)

In [9]: arr2
Out[9]:
array([[1, 2, 4, 5],
       [5, 6, 7, 8]])

In [10]: arr1.dtype
Out[10]: dtype(‘float64‘)

In [11]: arr2.dtype
Out[11]: dtype(‘int32‘)

python内置函数range函数的数组版arange

In [12]: np.arange(15)
Out[12]: array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

ndarray的数据类型 dtype

dtype 用于说明数组数据类型的对象

dtype含有ndarray将一块内存解释为特定数据类型所需的信息，语法

arr3 = np.array([数组]，dtype=np.float64)        #数组类型

通过astype方法转化dtype

arr1 = np.array([5,3,11,2.3,0])
float_arr = arr1.astype(np.float64)

如果数组元素都为字符串可用astype转换为数值类型，调用astype会创建出一个新的数组，即使新数组和老数组dtype相同

如果浮点型数组转换为整数，小数点后面的将会被截断，并且不会四舍五入

数组间的转换

数组A = 。。
数组B = 。。
数组A.astype(数组B.dtype)

数组运算(矢量化)

数组与标量的算数运算应用到每个值

In [13]: arr1
Out[13]: array([  5. ,   3. ,  11. ,   2.3,   0. ])

In [14]: arr1 * arr1
Out[14]: array([  25.  ,    9.  ,  121.  ,    5.29,    0.  ])

In [15]: arr1 - arr1
Out[15]: array([ 0.,  0.,  0.,  0.,  0.])

In [16]: 1 / arr1
C:\Program Files\Python35\Scripts\ipython3:1: RuntimeWarning: divide by zero encountered in true_divide
Out[16]: array([ 0.2       ,  0.33333333,  0.09090909,  0.43478261,         inf])

In [17]: 1 / arr1 ** 0.5
C:\Program Files\Python35\Scripts\ipython3:1: RuntimeWarning: divide by zero encountered in true_divide
Out[17]: array([ 0.4472136 ,  0.57735027,  0.30151134,  0.65938047,         inf])

In [18]:

索引和切片

一维数组

In [25]: arr = np.array([4,3,6,7,2,7,9,8])　　　　　　#一维数组与python的列表取值方式一样

In [26]: arr
Out[26]: array([4, 3, 6, 7, 2, 7, 9, 8])

In [27]: arr[0]
Out[27]: 4

In [28]: arr[1]
Out[28]: 3

In [29]: arr[3:6]　　　　　　　　　　　　#取值索引为 3,4,5的值
Out[29]: array([7, 2, 7])

In [30]: arr[3:6] = 11　　　　　　　　　　#赋值为所有

In [31]: arr
Out[31]: array([ 4,  3,  6, 11, 11, 11,  9,  8])

二维数组

各索引位置上的值不再是一个标量，而是一个一维数组（python里的列表）

In [33]: arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])　　#shape为（3,3）
In [34]: np.ndim(arr2d)　　　　　　#二维数组查看方法
Out[34]: 2

In [35]: arr2d[2]
Out[35]: array([7, 8, 9])

所以，可以对单个元素进行递归访问

In [35]: arr2d[2]
Out[35]: array([7, 8, 9])

In [36]: arr2d[2][0]
Out[36]: 7

二维数组索引方式

多维数组索引

In [37]: arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9,],[10,11,12]]])

In [38]: arr3d
Out[38]:
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [39]: arr3d[0]　　　　　　　　　　　　　　#取第一个值
Out[39]:
array([[1, 2, 3],
       [4, 5, 6]])

In [40]: arr3d[0] = 42　　　　　　　　　　#给元素赋值

In [41]: arr3d[0]
Out[41]:
array([[42, 42, 42],
       [42, 42, 42]])

In [42]: arr3d　　　　　　　　　　　　　　#新的数组
Out[42]:
array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [43]: arr3d[1,0]　　　　　　　　　　#多维数组元素取值,等同于 arr3d[1][0]
Out[43]: array([7, 8, 9])

切片索引

二维数组切片

ndarry的切片语法跟python列表的取值差不多，例

In [45]: arr2d
Out[45]:
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [46]: arr2d[:2]
Out[46]:
array([[1, 2, 3],
       [4, 5, 6]])

#一次传入多个切片取值

　In [47]: arr2d[:2,1:]　　　　　　　　#取前两行的值，再取其索引为1及以后的值
　Out[47]:
　array([[2, 3],
　　　　　 [5, 6]])

#对高维数组切片

　 arr2d[:,:1]　　　　　　　　#算作是语法

布尔型索引

布尔型数组可用于数组索引，布尔型数组的长度必须与被索引的轴的长度一致

In [48]: names = np.array([‘Bob‘,‘Joe‘,‘will‘,‘Bob‘,‘will‘,‘Joe‘,‘Joe‘])

In [49]: data = randn(7,4)

In [50]: names
Out[50]:
array([‘Bob‘, ‘Joe‘, ‘will‘, ‘Bob‘, ‘will‘, ‘Joe‘, ‘Joe‘],
      dtype=‘<U4‘)

In [51]: data
Out[51]:
array([[ 0.10178629, -1.07043495,  0.39996302,  0.86182796],
       [-0.4353786 , -0.03595137, -0.50582915,  0.72286381],
       [-0.08335713, -0.88924282, -0.34335741, -1.11461641],
       [-0.69570247,  2.41029154, -0.62120433, -0.54820488],
       [-0.56408913, -0.43663855,  0.00482595,  0.36397724],
       [-0.32140443, -1.84666651,  0.11527445, -2.36827836],
       [-1.72703212,  0.13889588,  0.93259899, -0.92023785]])

　In [57]: names == ‘Bob‘
　Out[57]: array([ True, False, False, True, False, False, False], dtype=bool)

　In [58]: data[names==‘Bob‘]　　　　　　#根据名称的索引取data里的值
　Out[58]:
　array([[ 0.10178629, -1.07043495, 0.39996302, 0.86182796],
　　　[-0.69570247, 2.41029154, -0.62120433, -0.54820488]])

　In [59]: data[names==‘Bob‘,2:]　　　　#取值，与切片整数混合使用
　Out[59]:
　array([[ 0.39996302, 0.86182796],
　　　　　[-0.62120433, -0.54820488]])

　#选择非值操作，可使用！= 或者 - 符号表示非值，例：

　In [62]: names != ‘Bob‘

Out[62]: array([False, True, True, False, True, True, True], dtype=bool)

　In [64]: data[-(names == ‘Bob‘)]

　Out[64]:
　array([[-0.4353786 , -0.03595137, -0.50582915, 0.72286381],
　　[-0.08335713, -0.88924282, -0.34335741, -1.11461641],
　　[-0.56408913, -0.43663855, 0.00482595, 0.36397724],
　　[-0.32140443, -1.84666651, 0.11527445, -2.36827836],
　　[-1.72703212, 0.13889588, 0.93259899, -0.92023785]])

　#将data中的负值设置为0

　In [69]: data[data<0]
　Out[69]:
　array([-1.07043495, -0.4353786 , -0.03595137, -0.50582915, -0.08335713,
　　　　-0.88924282, -0.34335741, -1.11461641, -0.69570247, -0.62120433,
　　　　-0.54820488, -0.56408913, -0.43663855, -0.32140443, -1.84666651,
　　　　-2.36827836, -1.72703212, -0.92023785])

　In [70]: data[data<0] = 0

　In [71]: data
　Out[71]:
　array([[ 0.10178629, 0. , 0.39996302, 0.86182796],
　　　　[ 0. , 0. , 0. , 0.72286381],
　　　　[ 0. , 0. , 0. , 0. ],
　　　　[ 0. , 2.41029154, 0. , 0. ],
　　　　[ 0. , 0. , 0.00482595, 0.36397724],
　　　　[ 0. , 0. , 0.11527445, 0. ],
　　　　[ 0. , 0.13889588, 0.93259899, 0. ]])

　In [72]:

#通过一维布尔数组设置正行或整列的值

　In [74]: data[names != ‘Joe‘] = 0

　In [75]: data
　Out[75]:
　array([[ 0. , 0. , 0. , 0. ],
　　　　[ 0. , 0. , 0. , 0.72286381],
　　　　[ 0. , 0. , 0. , 0. ],
　　　　[ 0. , 0. , 0. , 0. ],
　　　　[ 0. , 0. , 0. , 0. ],
　　　　[ 0. , 0. , 0.11527445, 0. ],
　　　　[ 0. , 0.13889588, 0.93259899, 0. ]])

　In [76]:

花式索引

花式索引是利用整数进行索引