机器学习代码基础(4)-- Pandas速成

1.4 Pandas速成

Pandas是面向数据分析场景设计的Python开源软件工具包,从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据。

Series:一维数组

DataFrame:二维数组

1.4.1Series

Series与numpy中的一维数组类似,但是再建立Series时可以设定index,也可以像访问numpy数组或字典一样访问Series对象。

import numpy as np
import pandas as pd
myarray = np.array([1,2,3])
index = [‘a‘,‘b‘,‘c‘]
myseries = pd.Series(myarray,index=index)
print(myseries)
print(myseries[0])
print(myseries[‘c‘])

1.4.2DataFrame

DataFrame是一个可以指定行和列标签的二维数组,可以通过指定列名来访问特定列的数据。

import numpy as np
import pandas as pd
myarray = np.array([[1,2,3],[2,3,4],[3,4,5]])
rowindex = [‘row1‘,‘row2‘,‘row3‘]
colname = [‘col‘,‘col2‘,‘col3‘]
mydataframe = pd.DataFrame(myarray,index=rowindex,columns=colname)
print(mydataframe)
print(mydataframe[‘col3‘])

1.4.3读取csv文件

使用Pandas导入数据比Numpy要容易

import pandas as pd
names = [‘a‘,‘b‘,‘c‘,‘d‘,‘e‘]
df = pd.read_csv(‘iris.csv‘,names = names,header = None)
df.head(5)
df.tail(5)
df.values

原文地址:https://www.cnblogs.com/lsm-boke/p/12212967.html

时间: 2024-10-18 20:14:11

机器学习代码基础(4)-- Pandas速成的相关文章

机器学习--线性代数基础

关闭 yunqishequ1的博客 目录视图 摘要视图 订阅 管理博客 写新文章 评论送书 | 7月书讯:众多畅销书升级!      CSDN日报20170727--<想提高团队技术,来试试这个套路!>      评论送书 | 机器学习.Java虚拟机.微信开发 机器学习--线性代数基础 2017-07-28 14:05 6人阅读 评论(0) 收藏 编辑 删除  分类: 机器x 目录(?)[+] 原文地址 数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得

【Machine Learn】机器学习及其基础概念简介

机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(K-means聚

送给那些有代码基础但仍旧不会学自动化测试的朋友们

百度搜索:小强测试品牌 交流群:165380836 我经常遇到这样的场景:老师,我有python or java基础,但还是不知道怎么写代码?老师,我有代码基础,简单的不用学,我想学高级的.老师,我有编程基础,但是我看不懂代码......诸如此类的问题,我想大家也一定有这些内心的OS 面对这样的场景,这样的问题,我也问了不少童鞋,得到的答案其实听悲哀的.莫过于说些代码太难了,不会不懂:这个代码写的不详细导致我看不懂:我有编程基础的,是你写的代码太烂了.....诸如此类把问题全部归于他因的...可

决策树机器学习分类基础代码(最基础方法)

直接给代码 1 # -*- coding: UTF-8 -*- 2 from math import log 3 import operator 4 5 """ 6 函数说明:计算给定数据集的经验熵(香农熵) 7 8 Parameters: 9 dataSet - 数据集 10 Returns: 11 shannonEnt - 经验熵(香农熵) 12 Author: 13 Jack Cui 14 Blog: 15 http://blog.csdn.net/c406495762

机器学习算法基础概念学习总结

转自:http://blog.csdn.net/lantian0802/article/details/38333479 1.基础概念: (1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性.是常用的测试方法.将数据集分成10份.轮流将其中的9份作为训练数据,1分作为测试数据,进行试验.每次试验都会得出相应的正确率(或差错率).10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准

机器学习算法基础概念学习总结(转载)

来源:lantian0802的专栏 blog.csdn.net/lantian0802/article/details/38333479 一.基础概念 1.10折交叉验证,英文名是10-fold cross-validation,用来测试算法的准确性.是常用的测试方法.将数据集分成10份.轮流将其中的9份作为训练数据,1分作为测试数据,进行试验.每次试验都会得出相应的正确率(或差错率). 10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值

机器学习- Numpy基础 吐血整理

Numpy是专门为数据科学或者数据处理相关的需求设计的一个高效的组件.听起来是不是挺绕口的,其实简单来说就2个方面,一是Numpy是专门处理数据的,二是Numpy在处理数据方面很牛逼(肯定比Python原生组件牛逼,否则也不会另外再来搞个Numpy了吧).其实更加细化的来看其实Numpy最常用的就是矩阵(Matrix)的处理.如何有一点数据处理方面的经验的话,无论你每一条数据有多少个features(特征),它终究是一个二维的矩阵.所以Numpy在数据处理方面是非常常用的.就是简单点理解就是Nu

编写高质量的代码--基础:结构和样式,行为的分离

实现高质量的代码需要我们在结构和样式,行为的分离的基础上做到:精简,重用,有序. 精简:尽量减小文件的大小,提高页面加载速度. 重用:提高代码的重用性,减少冗余代码,提高开发速度. 有序:提高代码的结构性,组织好代码结构更利于维护和应变特殊情况. 在我们的工作中你可能会遇到这样的代码,或者说你可能写出这样的代码 <td width="100%" height="20" class="f9pt" align="center"

Python机器学习(基础篇---监督学习(集成模型))

集成模型 集成分类模型是综合考量多个分类器的预测结果,从而做出决策. 综合考量的方式大体分为两种: 1.利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策.(随机森林分类器) 2.按照一定次序搭建多个分类模型.这些模型之间彼此存在依赖关系.一般而言,每一个后续模型的加入都要对现有集成模型的综合性能有所贡献,进而不断提升更新过后的集成模型的性能.(梯度提升决策树) 代码1: #集成模型对泰坦尼克号乘客是否生还的预测 #导入pandas,并且重命