tensorflow(五)

一、单机编程框架

单机程序是指启动和运行都在一台机器的一个进程中完成,因为没有网络开销,非常适合参数不多、计算量小的模型。

步骤,创建单机数据流图,创建并运行单机会话。

saver = tf.train.Saver()
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()

for i in range(1000):
    batch_xs,batch_ys = mnist.train.next_batch(100)
    sess.run(train_step,feed_dict={x:batch_xs,y_=batch_ys})
    if i%100 = 0:
        saver.save(sess,‘mnist.ckpt‘)
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
sess.run(accuracy,feed_dict={x:mnist.test.images,y_:mnist.test.labels})

如果想指定机器上的设备如cpu,gpu

可以使用

with tf.device(‘/cpu:0‘):

  ……

二、分布式程序编程框架

PS-worker是一种经典的分布式架构,它在大规模分布式机器学习和深度学习中有广泛的应用,tensorFlow提供了对PS-worker的支持。

步骤

(1).pull,各worker根据数据流图的拓扑结构,从PS拉取最新的模型参数

(2).feed,各worker按照一定的规则填充不同批次的批数据

(3).compute,各worker使用相同的模型参数和不同的批数据计算梯度,得出不同的梯度值

(4).push,各worker将上一步计算得到的梯度值推送到PS

(5).update,PS汇总数据,求出梯度平均值后更新模型参数

分布式程序运行步骤 创建集群,创建分布式数据流图,创建分布式会话

集群创建, tf.train.Server(host,job_name,task_index)

将操作放置在目标设备上

with tf.device(‘/job:PS/task:0‘):
    weights_1 = tf.Variable()
with tf.device(‘/job:PS/task:1‘):
    weights_2 = tf.Variable()
with tf.device(‘/job:worker/task:1‘):
    tf.nn.relu()

3.训练机制

同步训练机制

每个worker独立训练,直到所有worker计算出梯度值后进行模型参数的汇总计算,并更新当前训练步的模型参数,计算较快的worker需要阻塞等待计算较慢的worker

y = tf.nn.softmax(tf.nn.xw_plus_b(hid,sm_w,sm_b))
cross_entropy = -tf.reduce_sum(FLAGS.learning_rate)
if FLAGS.sync_replicas:
    opt = tf.train.SyncReplicasOptimizer(opt,replicas_to_aggregate=10,total_num_replicas=100,name=‘mnist_sync‘)
opt.minimize(cross_entropy,global_step=1)

异步训练机制

每个worker独立训练,计算出梯度值后立即进行模型参数计算,每个worker无阻塞等待其他所有worker的梯度计算完成。

原文地址:https://www.cnblogs.com/yangyang12138/p/12089360.html

时间: 2024-10-10 16:05:04

tensorflow(五)的相关文章

TensorFlow(五) 线性支持向量机的使用

#在TensorFlow实现一个soft margin 支持向量机 #损失函数 惩罚项 使用L2范数 # 1/n*Σmax(0, y(Ax-b)) +Σ||A||^2 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt from sklearn import datasets sess=tf.Session() #加载鸢尾花集合 iris=datasets.load_iris() #提取特征 x_v

TF Boys (TensorFlow Boys ) 养成记(五)

郑重声明:此文为本人原创,转载请注明出处:http://www.cnblogs.com/Charles-Wan/p/6207039.html 有了数据,有了网络结构,下面我们就来写 cifar10 的代码. 首先处理输入,在 /home/your_name/TensorFlow/cifar10/ 下建立 cifar10_input.py,输入如下代码: from __future__ import absolute_import # 绝对导入 from __future__ import div

深度学习(五十五)tensorflow分布式训练

tensorflow分布式训练 博客:http://blog.csdn.net/hjimce 微博:黄锦池-hjimce   qq:1393852684 情况一.单机单卡 单机单卡是最普通的情况,当然也是最简单的,示例代码如下: #coding=utf-8 #单机单卡 #对于单机单卡,可以把参数和计算都定义再gpu上,不过如果参数模型比较大,显存不足等情况,就得放在cpu上 import tensorflow as tf with tf.device('/cpu:0'):#也可以放在gpu上 w

tensorflow学习笔记五:mnist实例--卷积神经网络(CNN)

mnist的卷积神经网络例子和上一篇博文中的神经网络例子大部分是相同的.但是CNN层数要多一些,网络模型需要自己来构建. 程序比较复杂,我就分成几个部分来叙述. 首先,下载并加载数据: import tensorflow as tf import tensorflow.examples.tutorials.mnist.input_data as input_data mnist = input_data.read_data_sets("MNIST_data/", one_hot=Tru

《神经网络与深度学习》(五) 卷积神经网络CNN及tensorflow代码实现示例

转自:http://blog.csdn.net/cxmscb/article/details/71023576 一.CNN的引入 在人工的全连接神经网络中,每相邻两层之间的每个神经元之间都是有边相连的.当输入层的特征维度变得很高时,这时全连接网络需要训练的参数就会增大很多,计算速度就会变得很慢,例如一张黑白的 28×28 的手写数字图片,输入层的神经元就有784个,如下图所示: 若在中间只使用一层隐藏层,参数 w 就有 784×15=11760 多个:若输入的是28×28 带有颜色的RGB格式的

tensorflow 基础学习五:MNIST手写数字识别

MNIST数据集介绍: from tensorflow.examples.tutorials.mnist import input_data # 载入MNIST数据集,如果指定地址下没有已经下载好的数据,tensorflow会自动下载数据 mnist=input_data.read_data_sets('.',one_hot=True) # 打印 Training data size:55000. print("Training data size: {}".format(mnist.

(五)TensorFlow框架之变量OP

系列博客链接: (一)TensorFlow框架介绍:https://www.cnblogs.com/kongweisi/p/11038395.html (二)TensorFlow框架之图与TensorBoard:https://www.cnblogs.com/kongweisi/p/11038517.html (三)TensorFlow框架之会话:https://www.cnblogs.com/kongweisi/p/11038550.html (四)TensorFlow框架之张量:https:

TensorFlow学习五

今天在学习关于tensorboard的使用的时候出现了几个问题: 问题一: No dashboards are active for the current data set. Probable causes: You haven’t written any data to your event files. TensorBoard can’t find your event files. If you’re new to using TensorBoard, and want to find

TensorFlow基础入门(五)--单隐层与双隐层的神经网络结构

注意:本部分的ppt来源于中国大学mooc网站:https://www.icourse163.org/learn/ZUCC-1206146808?tid=1206445215&from=study#/learn/content?type=detail&id=1211168244&cid=1213754001 原文地址:https://www.cnblogs.com/byczyz/p/12079731.html