python数据集处理

一、如何删除数据里中的某一列

1)打开文件open()

2)for循环读取文件的每一行

strip()--去除首尾的空格,split()--以空格分割数据.返回list数据

/**

这一部分对数据集进行操作

**/

3)用join()函数将列表数据转化成字符串

4)将数据写入文件write()

例:删除文件的第列数据。python实现代码如下:

# -*- coding: utf-8 -*-
"""
Created on Mon Jun 15 09:44:49 2015

@author: Chaofn
"""
def loadDataSet(fileName):
    fr=open(fileName)
    fp=open(‘D:/01.test‘,‘w‘)
    """
    curLine的类型为list
    去除数据集中的第一列
    添加换行符
    将列表类型转化成字符串类型
    """
    for line in fr.readlines():
        curLine=line.strip().split(‘,‘)
        del curLine[0]
        curLine.append(‘\n‘)
        strLine=‘,‘.join(curLine)
        fp.write(strLine)
    fp.close()
   
时间: 2024-11-24 12:52:25

python数据集处理的相关文章

python数据集处理,加载成list

def loadDataSet(filename): f = open(filename) numFeatures = len(f.readline().split('\t')) - 1 dataMat = [] labelMat = [] for line in f.readlines(): lineArr=[] curLine=line.strip().split('\t') for i in range(0,numFeatures): lineArr.append(float(curLin

tensorflow学习之softmax regression

电脑配置:win10 + Anaconda3 + pyton3.5 + vs2013 + tensorflow + Gpu980 + matlab2016b softmax regression的详细介绍,请参考黄文坚的<tensorflow实战>的第3.2节. 原书pdf下载地址: 链接:https://pan.baidu.com/s/1sk8Qm4X 密码:28jk 原书code下载地址:链接:https://pan.baidu.com/s/1eR1LepW 密码:kmiz 我这里的贡献,

mnist的格式说明,以及在python3.x和python 2.x读取mnist数据集的不同

#!/usr/bin/env python # -*- coding: UTF-8 -*- import struct # from bp import * from datetime import datetime # 数据加载器基类 class Loader(object): def __init__(self, path, count): ''' 初始化加载器 path: 数据文件路径 count: 文件中的样本个数 ''' self.path = path self.count = co

gabor变换人脸识别的python实现,att_faces数据集平均识别率99%

大家都说gabor做人脸识别是传统方法中效果最好的,这几天就折腾实现了下,网上的python实现实在太少,github上的某个版本还误导了我好几天,后来采用将C++代码封装成dll供python调用的方式,成功解决. 图像经多尺度多方向的gabor变换后,gabor系数的数目成倍上升,所以对gabor系数必须进行降维才能送至后续的SVM分类器.测试图像使用att_faces数据集(40种类型,每种随机选5张训练,5张识别),降维方式我测试了DCT.PCA两种变换方式,说实话,dct不怎么靠谱,居

Python/Keras如何将给定的数据集打乱

给定数据集data,数据集对应的标签label index = [i for i in range(len(data))] random.shuffle(index) data = data[index] label = label[index] (1)首先,获得数据集的所有index,其实就是0,1,2,....,num-1(这里的num是数据集中含有的examples的个数,注意,python的索引是从0开始的,所以,第一个元素索引为0,最后一个元素索引为num-1) [数据集中函数的样本个

【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景 决策书算法是一种逼近离散数值的分类算法,思路比較简单,并且准确率较高.国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Data Mining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一.C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. 算法的主要思想就是将数据集依照特

【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析

今天主要讲述的内容是关于决策树的知识,主要包括以下内容:        1.分类及决策树算法介绍        2.鸢尾花卉数据集介绍        3.决策树实现鸢尾数据集分析        前文推荐:       [Python数据挖掘课程]一.安装Python及爬虫入门介绍       [Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍       [Python数据挖掘课程]三.Kmeans聚类代码实现.作业及优化        希望这篇文章对你有所帮助,尤其

关于IRIS数据集的Python分析-一份带注释的代码

所有内容都在python源码和注释里,可运行! ########################### #说明: # 撰写本文的原因是,笔者在研究博文“http://python.jobbole.com/83563/”中发现 # 原内容有少量笔误,并且对入门学友缺少一些信息.于是笔者做了增补,主要有: # 1.查询并简述了涉及的大部分算法: # 2.添加了连接或资源供进一步查询: # 3.增加了一些lib库的基本操作及说明: # 4.增加了必须必要的python的部分语法说明: # 5.增加了对

python实现cifar10数据集的可视化

在学习tensorflow的mnist和cifar实例的时候,官方文档给出的讲解都是一张张图片,直观清晰,当我们看到程序下载下来的数据的时候,宝宝都惊呆了,都是二进制文件,这些二进制文件还不小,用文本编辑器打开看也看不懂,要是将数据再现为图像,多好! (1)CIFAR-10数据集介绍 ① CIFAR-10数据集包含60000个32*32的彩色图像,共有10类.有50000个训练图像和10000个测试图像. 数据集分为5个训练块和1个测试块,每个块有10000个图像.测试块包含从每类随机选择的10