TensorFlow 制作自己数据集时,xml转csv

TensorFlow 制作自己数据集时,xml转csv千篇一律,把我拐入坑里了。

如果训练自己的数据集只有一个类别,用网络上的xml_to_csv,完全没有问题,源码如下:

# -*- coding: utf-8 -*-
import os
import glob
import pandas as pd
import xml.etree.ElementTree as ET

def xml_to_csv(path):
    xml_list = []
    # 读取注释文件
    for xml_file in glob.glob(path + ‘/*.xml‘):
        tree = ET.parse(xml_file)
        root = tree.getroot()
        for member in root.findall(‘object‘):
            value = (root.find(‘filename‘).text + ‘.jpg‘,
                     int(root.find(‘size‘)[0].text),
                     int(root.find(‘size‘)[1].text),
                     member[0].text,
                     int(member[4][0].text),
                     int(member[4][1].text),
                     int(member[4][2].text),
                     int(member[4][3].text)
                     )
            xml_list.append(value)
    column_name = [‘filename‘, ‘width‘, ‘height‘, ‘class‘, ‘xmin‘, ‘ymin‘, ‘xmax‘, ‘ymax‘]

    # 将所有数据分为样本集和验证集,一般按照3:1的比例
    train_list = xml_list[0: int(len(xml_list) * 0.67)]
    eval_list = xml_list[int(len(xml_list) * 0.67) + 1: ]

    # 保存为CSV格式
    train_df = pd.DataFrame(train_list, columns=column_name)
    eval_df = pd.DataFrame(eval_list, columns=column_name)
    train_df.to_csv(‘data/train.csv‘, index=None)
    eval_df.to_csv(‘data/eval.csv‘, index=None)

def main():
    path = ‘./xml‘
    xml_to_csv(path)
    print(‘Successfully converted xml to csv.‘)

main()

  

如果你的类别数据集,超过2类以上,再用上述源码,觉得把所有的数据集3:1的分割,而非一个类别的3:1分割 。

对上述源码略作调整,完美把每一类数据集按照9:1分割为训练数据集和测试数据集,源代码如下:

# coding: utf-8
import glob
import pandas as pd
import xml.etree.ElementTree as ET

classes = ["20Km_h", "no_passing_35", "no_passing", "keep_left", "keep_right", "mandatory", "straight_or_left", "passing_limits",
           "bicycles", "pedestrians", "stop", "dangerous"]

def xml_to_csv(path):
    train_list = []
    eval_list = []

    for cls in classes:
        xml_list = []
        # 读取注释文件
        for xml_file in glob.glob(path + ‘/*.xml‘):
            tree = ET.parse(xml_file)
            root = tree.getroot()
            for member in root.findall(‘object‘):
                if cls == member[0].text:
                    value = (root.find(‘filename‘).text,
                             int(root.find(‘size‘)[0].text),
                             int(root.find(‘size‘)[1].text),
                             member[0].text,
                             int(member[4][0].text),
                             int(member[4][1].text),
                             int(member[4][2].text),
                             int(member[4][3].text)
                             )
                    xml_list.append(value)

        for i in range(0,int(len(xml_list) * 0.9)):
            train_list.append(xml_list[i])
        for j in range(int(len(xml_list) * 0.9) + 1,int(len(xml_list))):
            eval_list.append(xml_list[j])

    column_name = [‘filename‘, ‘width‘, ‘height‘, ‘class‘, ‘xmin‘, ‘ymin‘, ‘xmax‘, ‘ymax‘]

    # 保存为CSV格式
    train_df = pd.DataFrame(train_list, columns=column_name)
    eval_df = pd.DataFrame(eval_list, columns=column_name)
    train_df.to_csv(‘data/train.csv‘, index=None)
    eval_df.to_csv(‘data/eval.csv‘, index=None)

def main():
    # path = ‘E:\\\data\\\Images‘
    path = r‘D:\work\PycharmPro\trafficsign\SSD_NET\data\xml_data‘  # path参数更具自己xml文件所在的文件夹路径修改
    xml_to_csv(path)
    print(‘Successfully converted xml to csv.‘)

main()

  

classes = ["20Km_h", "no_passing_35", "no_passing", "keep_left", "keep_right", "mandatory", "straight_or_left", "passing_limits", "bicycles", "pedestrians", "stop", "dangerous"]

该处需要改为自己数据集类别标签名。

原文:https://blog.csdn.net/miao0967020148/article/details/90208139

原文地址:https://www.cnblogs.com/qbdj/p/11024547.html

时间: 2024-08-30 01:40:28

TensorFlow 制作自己数据集时,xml转csv的相关文章

使用R语言将XML转换为CSV

这里使用的xml文件为CASOS提供的数据集company.xml 首先分析xml文件,截取一段xml代码 1 <DynamicNetwork> 2 <MetaNetwork> 3 <nodes> 4 <nodeclass type="agent" id="agent"> 5 <node id="LDR" title="Project Manager" /> 6 &l

制作coco数据集以在Detectron框架上进行数据的训练

图片预处理 首先,根据Detectron官方介绍,数据集一般为jpg格式,分辨率一般为800*600左右. 在这里我们可以photoshop批量对图片进行处理 使用labelImg对数据集进行标注. 安装labelImg之后,打开文件目录,找到data文件夹下的predefined_classes.txt并打开,修改里面的内容,将自己定义的标签名添加到下面,这样在标注图片的时候,就会显示标签供选择. 打开labelImg Change Save Dir 为你选择保存XML文件的目录,Open D

在制作WORD小报时添加艺术横线或者艺术竖线

我们知道,制作WORD小报,主要靠文本框这位排版老大哥.其实,在小报中的艺术横线或者艺术竖线的添加也是很简单的.只要在想加线的地方,添加一个文本框,然后在其中的段落标记位置添加一个艺术横线即可. 对应的插入横线的菜单位置是:格式-边框与底纹-"横线"按钮.当然,要想添加艺术竖线时,需要把对应的文本框中的文本设置为竖排就可以了. 在制作WORD小报时添加艺术横线或者艺术竖线,布布扣,bubuko.com

Android Strings.xml To CSV / Excel互转

Android Strings.xml To CSV/Excel互转https://blog.csdn.net/hzxpyjq/article/details/50686983https://blog.csdn.net/u013254166/article/details/56278233 xls_xml  langtool omni 可以!很流畅,干练,基本设置都有,省电高效:rr -设置全,也比较干净,但是最近任务很烂,没有一键清理按钮lingeaos 缺少定制性,不太流畅,还行 crdro

Python制作本地数据集

1 ##################################################### 2 # 功能:Python制作本地数据集 3 ##################################################### 4 5 # 导入相应包 6 import os 7 from PIL import Image 8 import numpy as np 9 from keras.utils import to_categorical 10 11 d

CSS制作二级菜单时,二级菜单与一级菜单不对齐

效果如图: 部分代码如图: <li><a href="#" target="_blank">关于我们</a> <ul> <li class="top"><a href="#" target="_blank">关于我们</a></li> <li><a href="#" targ

Java 将Excel转为图片、html、XPS、XML、CSV

通过文档格式转换,可满足不同办公场合对文档操作的需求.本文将介绍转换Excel文档为其他常见文档格式的方法.通过文中的方法,可支持将Excel转换为包括PDF.图片.html.XPS.XML.CSV.PCL.ODS.PostScript.以及Office Excel不同版本,如,version97-2003,version2007,version2010,version2013,version2016等在内的不同文档格式.本文以转换其中的几种文档格式为例介绍具体转换方法. 使用工具:Free S

FineReport中如何制作树数据集来实现组织树报表

1. 问题描述 FineReport,组织树报表中由id与父id来实现组织树报表,若层级数较多时,对每个单元格设置过滤条件和形态会比较繁琐,因此FineReport提供了一种特殊的数据集--树数据集,只需要简单的设置就能自动递归出层级,方便的实现如下图组织树报表: 图一   图二 2. FineReport构建树 2.1 新建报表,添加数据集 新建工作薄,添加数据集ds1取出原始数据,SQL语句为SELECT * FROM 公司部门. 2.2 定义树数据集 1)根据父字段构建树 使用情形:原始表

system存储说明和制作os模板时的注意事项

1.通过ISO制作模板时,安装机器后,使用非持久化磁盘安装后,无法从硬盘引导:使用持久化磁盘可以.2.system 存储,当opennebula 初次部署时,会生成0(system),1(image),2(datablock)system 用于存储虚拟机的配置文件,如下:[email protected]:~/opennebula/var/datastores/160/398> lsdeployment.0 disk.0 disk.1[email protected]:~/opennebula/