学习ML.NET(3): 导入数据集

机器学习算法需要作用于数据,用来训练算法模型。数据集通常是以纯文本文件存储的表格数据,文件的每一行是一条数据记录,每条记录由多列组成,列之间用分隔符(一般是逗号,)分开,例如前面用到过的鸢尾花数据集

在ML.NET中,使用TextLoader将文本文件导入到数据集。使用方式如下:

new TextLoader(filePath).CreateFrom<TInput>()

filePath是数据集文件路径。TInput是数据类,数据类中的每个属性对应数据集文件中的一列,属性使用ColumnAttribute匹配指定源列的索引,例如:

[Column("0")]
public float SepalLength;

CreateFrom方法包含多个参数,用于指定如何处理文本:

  • useHeader:文件第一行是否为列名,默认为false
  • separator:列分隔符,默认是制表符\t
  • allowQuotedStrings:列值是否是有引号字符串,默认是true,例如“ABC”实际值是ABC,不包含引号
  • trimWhitespace:是否去除列值结尾空白,默认是false,例如“ABC ”实际值的长度是4,包含一个空格

示例程序

假设有一个数据集test-data.txt,包含1列Id和一列文本数据,列名分别是Col1和Col2,文件内容如下:

"Col1","Col2"
1,"包含逗号和结尾空格, "
2,包含逗号,
3,包含结尾空格 

创建对应的数据类,数据类属性名可以不和列名一致,只要索引对应就可以了:

public class TestData
{
      [Column("0")]
      public float ID;

      [Column("1")]
      public string Text;
}

创建TextLoader:

var loader = new Microsoft.ML.Data.TextLoader("test-data.txt").CreateFrom<TestData>(
                 useHeader: true,
                 separator: ‘,‘,
                 allowQuotedStrings: true,
                 trimWhitespace: true);

接着我们载入数据集:

using (var environment = new TlcEnvironment())
            {
                var experiment = environment.CreateExperiment();
                var output = loader.ApplyStep(null, experiment) as ILearningPipelineDataStep;

                experiment.Compile();
                loader.SetInput(environment, experiment);
                experiment.Run();

                var data = experiment.GetOutput(output.Data);
                using (var cursor = data.GetRowCursor((a => true)))
                {
                    var IDGetter = cursor.GetGetter<float>(0);
                    var TextGetter = cursor.GetGetter<DvText>(1);

                    while(cursor.MoveNext())
                    {
                        float ID = 0;
                        IDGetter(ref ID);
                        DvText Text = new DvText();
                        TextGetter(ref Text);
                        Console.WriteLine($"ID:{ID},Text:\"{Text}\",Text长度为{Text.Length}");
                    }
                }
            }

最后的输出结果:

ID:1,Text:"包含逗号和结尾空格, ",Text长度为11
ID:2,Text:"包含逗号",Text长度为4
ID:3,Text:"包含结尾空格",Text长度为6

第一行列名被过滤。

第二行的文本列用引号引着,结果是原样输出。

第三行的文本列虽然有逗号,但是作为了分隔符。

第四行的文本列的结尾空白被去除。

原文地址:https://www.cnblogs.com/feiyun0112/p/ML-NET-3.html

时间: 2024-11-11 04:43:45

学习ML.NET(3): 导入数据集的相关文章

使用catboost解决ML中高维度不平衡数据集挑战的解决方案

python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share https://blog.csdn.net/myboyliu2007/article/details/80256681 什么是不平衡的数据集本文中所

Spring源码学习之一下载和导入

折腾了两天spring源码,一直都不能成功导入eclipse,今天早上上班前试了最后一次,总算BUILD SUCCESSFUL了,特此纪念一下. 一.下载spring源码,https://github.com/spring-projects/spring-framework/tree/v4.2.3.RELEASE.在linux mint系统里用git下载了一遍了,window系统的git用起来实在掣肘,所以直接下载zip压缩包了,解压. 二.更新jdk1.8_66,spring4需要用到jdk8

Oracle学习——dmp文件(表)导入与导出

前言 关于dmp文件我们用的还是比较多的,dmp文件它是作为oracle导入和导出表使用的文件格式,今天就将dmp文件导出和导入进行学习. dmp文件导出 dmp文件导出用的比较多的一般是三种,他们分别是:导出整个数据库实例下的所有数据.导出指定用户的所有表.导出指定表. 这里已我的数据库为例,进行介绍,我的Oracle数据库实例为"ORACLE",查看自己数据库实例可以从"任务管理器-->服务"中进行查看,如下图 打开命令行: 1,将数据库ORACLE完全导

学习ML.NET(1): 使用LearningPipeline构建机器学习流水线

LearningPipeline类用于定义执行所需机器学习任务所需的步骤,让机器学习的流程变得直观. 创建工作流 创建LearningPipeline实例,通过Add方法向流水线添加步骤,每个步骤都继承自ILearningPipelineItem接口. 其中,蓝色部分是可选步骤. 生成预测模型 调用LearningPipeline实例的Train方法,就可以根据已加载和处理后的数据集得到预测模型PredictionModel<TInput,TOutput>. 示例代码 var pipeline

javaweb学习总结二(静态导入、自动拆装箱、增强for与可变参数)

一:静态导入语法:import static 导入类.成员变量|成员方法那么在代码中可以直接使用变量或者方法,而不需要通过类名.来调用 静态导入: 1 import static java.lang.System.out; 那么在代码中直接调用变量: 1 @Test 2 //测试静态导入 3 public void testStaticImport() { 4 out.println("static import..."); 5 } 二:装箱或者拆箱装箱:将基本数据类型赋值给引用数据类

【Java学习笔记】静态导入

1 package p2; 2 3 //import static java.util.Collections.max; 4 5 import java.util.ArrayList; 6 import static java.util.Collections.*; //静态导入,其实导入的是类中的静态成员 7 import java.util.List; 8 import static java.lang.System.*; 9 10 public class news { 11 12 pub

android studio学习----通过libs来导入jar包

百度经验有一种方法: 1 点击启动AndroidStudio,启动后的界面如图所示. 2 复制你需要添加的jar,并将其黏贴到app— —src— —main— —libs文件夹下,可运行的AndroidStudio项目都有像这样的目录结构. 可以看到虽然jar已经复制黏贴过来了,但是还未导入,所以看不到jar中包含的内容.而已导入的jar,则可以看到jar中内容. 3 右键点击新黏贴的jar,在弹出菜单中点击Add As Library. 4 选择你要导入到的那个module(在Android

android studio学习----通过gradle来导入jar包

转载地址:http://www.th7.cn/Program/Android/201507/495477.shtml File->Project Structure 可以打开下面的图: 1.通过gradle配置第三方jar包 我们看到,每个module都有一个build.gradle文件,它其实是对应module的配置文件.关于build.gradle文件中具体内容的含义,我们将在最后一段进行讲解. 我们先来看一下名为app的这个module,它的build.gradle对应的图形界面其实是下面

sklearn学习:make_multilabel_classification——多标签数据集方法

Generate a random multilabel classification problem. For each sample, the generative process is: pick the number of labels: n ~ Poisson(n_labels):选取标签的数目 n times, choose a class c: c ~ Multinomial(theta) :n次,选取类别C:多项式 pick the document length: k ~ Po