tensorflow 对csv数据进行批量获取

代码如下:

#读取文件数据

def read_data(file_queue):
    # 读取的时候需要跳过第一行
    reader = tf.TextLineReader(skip_header_lines=1)
    key, value = reader.read(file_queue)
    # 对于数据源中空的值设置默认值
    record_defaults = [[‘‘], [‘‘], [‘‘], [‘‘], [0.], [0.], [0.], [0.], [‘‘],[0], [‘‘], [0.], [‘‘], [‘‘], [0]]
    # 定义decoder,每次读取的执行都从文件中读取一行。然后,decode_csv 操作将结果解析为张量列表
    province, city, address, postCode, longitude,latitude, price, buildingTypeId, buildingTypeName, tradeTypeId, tradeTypeName, expectedDealPrice, listingDate, delislingDate, daysOnMarket = tf.decode_csv(value, record_defaults)
    return tf.stack([price,expectedDealPrice]),daysOnMarket

#批量获取
def create_pipeline(filename,batch_size,num_epochs=None):
    file_queue = tf.train.string_input_producer([filename],num_epochs=num_epochs)
    example,dayOnMarket = read_data(file_queue)#example,label 样本和样本标签,batch_size 返回一个样本batch样本集的样本个数
    min_after_dequeue = 1000#出队后队列至少剩下的数据个数,小于capacity(队列的长度)否则会报错,
    capacity = min_after_dequeue+batch_size#队列的长度
    #example_batch,label_batch= tf.train.shuffle_batch([example,label],batch_size=batch_size,capacity=capacity,min_after_dequeue=min_after_dequeue)#把队列的数据打乱了读取
    example_batch,daysOnMarket_batch= tf.train.batch([example,dayOnMarket],batch_size=batch_size,capacity=capacity)#顺序读取

return example_batch,daysOnMarket_batch

原文地址:https://www.cnblogs.com/bluesl/p/9215800.html

时间: 2024-10-10 02:53:05

tensorflow 对csv数据进行批量获取的相关文章

TensorFlow读取CSV数据(批量)

直接上代码: # -*- coding:utf-8 -*- import tensorflow as tf def read_data(file_queue): reader = tf.TextLineReader(skip_header_lines=1) key, value = reader.read(file_queue) defaults = [[0], [0.], [0.], [0.], [0.], ['']] Id,SepalLengthCm,SepalWidthCm,PetalLe

在对csv文件做批量获取时无法获取,程序不动

代码如下: coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord)        for step in range(100):            #获取正真的样本和标签            example, label = sess.run([example_batch, daysOnMarket_batch])            print('第%d批数据'%(step))

TensorFlow读取CSV数据

代码来源于官方文档,做了一些小小的调整: # -*- coding:utf-8 -*- import tensorflow as tf filename_queue = tf.train.string_input_producer(["file01.csv", "file02.csv"]) reader = tf.TextLineReader() key, value = reader.read(filename_queue) # Default values, i

HBase 高性能获取数据 - 多线程批量式解决办法

在前篇博客里已经讲述了通过一个自定义 HBase Filter来获取数据的办法,在末尾指出此办法的性能是不能满足应用要求的,很显然对于如此成熟的HBase来说,高性能获取数据应该不是问题.下面首先简单介绍了搜索引擎的性能,然后详细说明了HBase与MySQL的性能对比,这里的数据都是经过实际的测试获得的.最后,给出了采用多线程批量从HBase中取数据的方案,此方案经过测试要比通过自定义Filter的方式性能高出很多. Solr和HBase专辑 1.“关于Solr的使用总结的心得体会”(http:

TensorFlow高效读取数据的方法——TFRecord的学习

关于TensorFlow读取数据,官网给出了三种方法: 供给数据(Feeding):在TensorFlow程序运行的每一步,让python代码来供给数据. 从文件读取数据:在TensorFlow图的起始,让一个输入管线从文件中读取数据. 预加载数据:在TensorFlow图中定义常量或变量来保存所有数据(仅适用于数据量比较小的情况). 对于数据量较小而言,可能一般选择直接将数据加载进内存,然后再分batch输入网络进行训练(tip:使用这种方法时,结合yeild 使用更为简洁).但是如果数据量较

使用Powershell批量获取Exchange 2013邮箱用户容量使用量

今天有客户要求需要获取邮箱用户的一些基本信息,其中一项是邮箱容量使用情况.需要使用Powershell来批量获取这些信息,于是乎我开始着手编写Powershell脚本. 我了解到微软官网https://gallery.technet.microsoft.com/scriptcenter/Exchange-2010-2013-2016-cee5e558.提供了这个脚本,脚本实现的功能和我需要实现的功能大体一致,我也不用去费劲儿从头编写代码了.下面我将我改造后的脚本分享给大家. 1.脚本实现的功能

如何从统计中批量获取BD搜索关键词及对应的入口页面?

前面我们介绍了通过cnzz的访问明细获取到搜索关键词及对应的入口页面,但是从BD搜索进来的关键词无法完整显示,只能呈现一些bd图片搜索的关键词,这是因为百度宣布从去年5月开始逐渐取消了referer关键词显示,保护站点流量关键词数据信息,第三方将不再可以轻易地窃取到流量关键词,令站点数据更加私密化.站长需要获得网站流量关键词时,可以使用百度站长平台提供的搜索关键词工具或者百度统计相关功能进行查询.是不是有点垄断的意味呢?没办法,国内的市场份额摆在那.当然你也可以针对其他搜索引擎做专门的优化.从统

SQL Server中中数据行批量插入脚本的存储实现

看到博友SQL Server MVP桦仔的一篇博文“将表里的数据批量生成INSERT语句的存储过程的实现”.我仔细看来博文中的两个存储代码,自我感觉两个都不太满意,都是生成的单行模式的插入,数据行稍微大些性能会受影响的.所在公司本来就存在第二个版本的类似实现,但是是基于多行模式的,还是需要手工添加UNAION ALL来满足多行模式的插入.看到这边博文和基于公司数据行批量脚本的存储的确定,这次改写和增强该存储的功能. 本存储运行于SQL Server 2005或以上版本,T-SQL代码如下: 1

php从memcache读取数据再批量写入mysql的方法

这篇文章主要介绍了php从memcache读取数据再批量写入mysql的方法,可利用memcache缓解服务器读写压力,并实现数据库数据的写入操作,非常具有实用价值,需要的朋友可以参考下. 用 Memcache 可以缓解 php和数据库压力下面代码是解决高负载下数据库写入瓶颈问题,遇到最实用的:写入ip pv uv的时候,用户达到每分钟几万访问量,要记录这些数据,实时写入数据库必定奔溃. 用以下技术就能解决,还有如用户注册,同一时间断内,大量用户注册,可以缓存后一次性写入到数据库,代码如下 pu