[Python数据挖掘]第2章、Python数据分析简介

1、Python数据结构

2、Numpy数组

import numpy as np #一般以np作为numpy的别名
a = np.array([2, 0, 1, 5]) #创建数组
print(a) #输出数组
print(a[:3]) #引用前三个数字（切片）
print(a.min()) #输出a的最小值
a.sort() #将a的元素从小到大排序，此操作直接修改a，因此这时候a为[0, 1, 2, 5]
b= np.array([[1, 2, 3], [4, 5, 6]]) #创建二维数组
print(b*b) #输出数组的平方阵，即[[1, 4, 9], [16, 25, 36]]

[2 0 1 5]
[2 0 1]
0
[[ 1  4  9]
 [16 25 36]]

3、Scipy矩阵

from scipy.optimize import fsolve #导入求解方程组的函数
from scipy import integrate #导入积分函数

def f(x): #定义要求解的方程组
  x1 = x[0]
  x2 = x[1]
  return [2*x1 - x2**2 - 1, x1**2 - x2 -2]
result = fsolve(f, [1,1]) #输入初值[1, 1]并求解
print(result) #输出结果，为array([ 1.91963957,  1.68501606])

#数值积分
def g(x): #定义被积函数
  return (1-x**2)**0.5
pi_2, err = integrate.quad(g, -1, 1) #积分结果和误差
print(pi_2 * 2) #由微积分知识知道积分结果为圆周率pi的一半

[ 1.91963957  1.68501606]
3.141592653589797

4、Matplotlib可视化

import numpy as np
import matplotlib.pyplot as plt #导入Matplotlib

x = np.linspace(0, 10, 1000) #作图的变量自变量
y = np.sin(x) + 1 #因变量y
z = np.cos(x**2) + 1 #因变量z

plt.figure(figsize = (8, 4)) #设置图像大小
plt.plot(x,y,label = ‘$\sin x+1$‘, color = ‘red‘, linewidth = 2) #作图，设置标签、线条颜色、线条大小
plt.plot(x, z, ‘b--‘, label = ‘$\cos x^2+1$‘)  #作图，设置标签、线条类型
plt.xlabel(‘Time(s) ‘) # x轴名称
plt.ylabel(‘Volt‘) # y轴名称
plt.title(‘A Simple Example‘) #标题
plt.ylim(0, 2.2) #显示的y轴范围
plt.legend() #显示图例
plt.show() #显示作图结果

5、Pandas数据分析和探索

Pandas基本数据结构是Series和DataFrame

s = pd.Series([1,2,3], index=[‘a‘, ‘b‘, ‘c‘]) #创建一个序列s
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns = [‘a‘, ‘b‘, ‘c‘]) #创建一个表
d2 = pd.DataFrame(s) #也可以用已有的序列来创建表格

#读取文件，注意文件的存储路径不能带有中文，否则读取可能出错。
pd.read_excel(‘data.xls‘) #读取Excel文件，创建DataFrame。
pd.read_csv(‘data.csv‘, encoding = ‘utf-8‘) #读取文本格式的数据，一般用encoding指定编码。

#d.head() #预览前5行数据
d.describe() #数据基本统计量

6、Keras神经网络

构建一个MLP(多层感知器),　　无法运行，需要适配相应的数据

from keras.models import Sequential
from keras.layers.core import Dense,Dropout,Activation
from keras.optimizers import SGD

model=Sequential()                    #模型初始化
model.add(Dense(64,input_dim=20))     #添加输入层（20节点）、第一隐藏层（64节点）的连接
model.add(Activation(‘tanh‘))         #第一隐藏层用tanh作为激活函数
model.add(Dropout(0.5))               #使用Dropout防止过拟合
model.add(Dense(64,input_dim=64, init=‘uniform‘))        #添加第一隐藏层（64节点）、第二隐藏层（64节点）的连接
model.add(Activation(‘tanh‘))         #第二隐藏层用tanh作为激活函数
model.add(Dropout(0.5))
model.add(Dense(1,input_dim=64))      #添加第二隐藏层（64节点）、输出层（1节点）的连接
model.add(Activation(‘sigmoid‘))      #输出层用sigmoid作为激活函数

sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True)        #定义求解算法
model.compile(loss=‘mean_squared_error‘, optimizer=sgd)           #编译生成模型，损失函数为mean_squared_error

model.fit(X_train, y_train, nb_epoch=20, batch_size=16)           #训练模型
score=model.evaluate(X_test,y_test,batch_size=16)                 #测试模型

原文地址：https://www.cnblogs.com/little-monkey/p/10022623.html

时间： 2024-10-12 21:17:34

[Python数据挖掘]第2章、Python数据分析简介的相关文章

[Python数据挖掘]第4章、数据预处理

数据预处理主要包括数据清洗.数据集成.数据变换和数据规约,处理过程如图所示. 一.数据清洗 1.缺失值处理:删除.插补.不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) import pandas as pd #导入数据分析库Pandas from scipy.interpolate import lagrange #导入拉格朗日插值函数 inputfile = '../data/catering_sale.xls' #销量数据路径 outputfile = '../tmp

[Python数据挖掘]第6章、电力窃漏电用户自动识别

一.背景与挖掘目标相关背景自查二.分析方法与过程 1.EDA(探索性数据分析) 1.分布分析 2.周期性分析 2.数据预处理 1.数据清洗过滤非居民用电数据,过滤节假日用电数据(节假日用电量明显低于工作日) 2.缺失值处理 #拉格朗日插值代码 import pandas as pd #导入数据分析库Pandas from scipy.interpolate import lagrange #导入拉格朗日插值函数 data = pd.read_excel('data/missing_dat

[Python数据挖掘]第5章、挖掘建模（上）

一.分类和回归回归分析研究的范围大致如下: 1.逻辑回归 #逻辑回归自动建模 import pandas as pd from sklearn.linear_model import LogisticRegression as LR from sklearn.linear_model import RandomizedLogisticRegression as RLR #参数初始化 data = pd.read_excel('data/bankloan.xls') x = data.iloc

[Python编程实战] 第一章 python的创建型设计模式1.1抽象工厂模式

注:关乎对象的创建方式的设计模式就是"创建型设计模式"(creational design pattern) 1.1 抽象工厂模式 "抽象工厂模式"(Abstract Factory Pattern)用来创建复杂的对象,这种对象由许多小对象组成,而这些小对象都属于某个特定的"系列"(family). 比如说,在GUI 系统里可以设计"抽象控件工厂"(abstract widget factory),并设计三个"具体子

python系统管理第1章,python中执行命令,python函数,面向对像编程,通过import语句实现代码复用

1.Python中执行命令例子1: [[email protected] opt]# cat pyls.py #!/usr/bin/env python #python wrapper for the ls command import subprocess subprocess.call(["ls","-l"]) 例子2: [[email protected] opt]# cat pysysinfo.py #!/usr/bin/env python

Python自动化复习第一章 Python基础知识

安装了Python2和Python3后在C:\Python\Python36下的python.exe重命名为python3.exe setuptools:基础包管理工具 pip:安装包管理工具创建project的时候选择Existing interpreter 下的Python版本 pycharm设置字体大小设置主题设置四个空格的显示(需要在设置其他的地方当前没有记录) 设置创建py文件时候的默认加载设置编码取消代码之间的依赖设置不同的版本输出中文的时候: # -*- codin

萌新向Python数据分析及数据挖掘第一章 Python基础 (上)未排版

因word和博客编辑器格式不能完全对接,正在重新排版,2019年1月1日发出第一章完整版本文将参考<Python编程从入门到实践>的讲述顺序和例子,加上自己的理解,让大家快速了解Python的基础用法,并将拓展内容的链接添加在相关内容之后,方便大家阅读. 好了!我们开始第一章的学习. 第一章 Python基础 python安装以及环境搭建 python的安装和环境变量的配置通过百度查询即可解决,这里不作赘述. IDE的选择:因为后期需要用来做数据分析,所以直接安装Anaconda会是一个不

萌新向Python数据分析及数据挖掘第一章 Python基础第一节 python安装以及环境搭建第二节变量和简单的数据类型

本文将参考<Python编程从入门到实践>的讲述顺序和例子,加上自己的理解,让大家快速了解Python的基础用法,并将拓展内容的链接添加在相关内容之后,方便大家阅读. 好了!我们开始第一章的学习. 第一章 Python基础第一节 Python安装以及环境搭建 Python的安装和环境变量的配置通过百度查询即可解决,这里不作赘述. IDE的选择:因为后期需要用来做数据分析,所以直接安装Anaconda会是一个不错的选择. Anaconda详细安装使用教程 https://blog.csdn.

萌新向Python数据分析及数据挖掘第一章 Python基础第八节函数

第一章 Python基础第八节函数定义函数函数其实就可以理解为外挂,把一些常用的.重复率比较多你又不想重复写的东西写进函数,加上开关实现简化操作举个简单的例子 1 def greet_user(username): 2 #定义一个叫做"迎接用户"的外挂,让他能直接打印一个问候语,括号里面是函数需要输入的东西,也就是个性化的东西 3 """先是简单的问候语""" 4 print("Hello! "