2016-01-13 64 views
9

我试图用tensorflow实施RBM RBM实施,这里是代码:与tensorflow

rbm.py

""" An rbm implementation for TensorFlow, based closely on the one in Theano """ 
import tensorflow as tf 
import math 
def sample_prob(probs): 
    return tf.nn.relu(
     tf.sign(
      probs - tf.random_uniform(probs.get_shape()))) 
class RBM(object): 
    def __init__(self, name, input_size, output_size): 
     with tf.name_scope("rbm_" + name): 
      self.weights = tf.Variable(
       tf.truncated_normal([input_size, output_size], 
        stddev=1.0/math.sqrt(float(input_size))), name="weights") 
      self.v_bias = tf.Variable(tf.zeros([input_size]), name="v_bias") 
      self.h_bias = tf.Variable(tf.zeros([output_size]), name="h_bias") 

    def propup(self, visible): 
     return tf.nn.sigmoid(tf.matmul(visible, self.weights) + self.h_bias) 

    def propdown(self, hidden): 
     return tf.nn.sigmoid(tf.matmul(hidden, tf.transpose(self.weights)) + self.v_bias) 

    def sample_h_given_v(self, v_sample): 
     return sample_prob(self.propup(v_sample)) 

    def sample_v_given_h(self, h_sample): 
     return sample_prob(self.propdown(h_sample)) 

    def gibbs_hvh(self, h0_sample): 
     v_sample = self.sample_v_given_h(h0_sample) 
     h_sample = self.sample_h_given_v(v_sample) 
     return [v_sample, h_sample] 

    def gibbs_vhv(self, v0_sample): 
     h_sample = self.sample_h_given_v(v0_sample) 
     v_sample = self.sample_v_given_h(h_sample) 
     return [h_sample, v_sample] 

    def cd1(self, visibles, learning_rate=0.1): 
     h_start = self.propup(visibles) 
     v_end = self.propdown(h_start) 
     h_end = self.propup(v_end) 
     w_positive_grad = tf.matmul(tf.transpose(visibles), h_start) 
     w_negative_grad = tf.matmul(tf.transpose(v_end), h_end) 
     update_w = self.weights.assign_add(learning_rate * (w_positive_grad - w_negative_grad)) 
     update_vb = self.v_bias.assign_add(learning_rate * tf.reduce_mean(visibles - v_end, 0)) 
     update_hb = self.h_bias.assign_add(learning_rate * tf.reduce_mean(h_start - h_end, 0)) 
     return [update_w, update_vb, update_hb] 

    def reconstruction_error(self, dataset): 
     err = tf.stop_gradient(dataset - self.gibbs_vhv(dataset)[1]) 
     return tf.reduce_sum(err * err) 

rbm_MNIST_test.py

import tensorflow as tf 
import numpy as np 
import rbm 
import input_data 

def build_model(X, w1, b1, wo, bo): 
    h1 = tf.nn.sigmoid(tf.matmul(X, w1)+b1) 
    model = tf.nn.sigmoid(tf.matmul(h1, wo)+bo) 
    return model 

def init_weight(shape): 
    return tf.Variable(tf.random_normal(shape, mean=0.0, stddev=0.01)) 

def init_bias(dim): 
    return tf.Variable(tf.zeros([dim])) 

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) 
trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels 

X = tf.placeholder("float", [None, 784]) 
Y = tf.placeholder("float", [None, 10]) 

rbm_layer = rbm.RBM("mnist", 784, 500) 

for i in range(10): 
    print "RBM CD: ", i 
    rbm_layer.cd1(trX) 

rbm_w, rbm_vb, rbm_hb = rbm_layer.cd1(trX) 


wo = init_weight([500,10]) 
bo = init_bias(10) 
py_x = build_model(X, rbm_w, rbm_hb, wo, bo) 

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(py_x, Y)) 
train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost) 
predict_op = tf.argmax(py_x, 1) 

sess = tf.Session() 
init = tf.initialize_all_variables() 
sess.run(init) 

for i in range(10): 
    for start, end in zip(range(0, len(trX), 128), range(128, len(trX), 128)): 
     sess.run(train_op, feed_dict={X: trX[start:end], Y: trY[start:end]}) 
    print i, np.mean(np.argmax(teY, axis=1) == 
        sess.run(predict_op, feed_dict={X: teX, Y: teY})) 

,但来这里的错误:

File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py", line 1626, in as_graph_def raise ValueError("GraphDef cannot be larger than 2GB.") ValueError: GraphDef cannot be larger than 2GB.

有人能帮我解决这个问题?

回答

12

TensorFlow在GraphDef原型上的限制为2GB,这是源于协议缓冲区实现的限制。如果图中有大的常量张量,则可以快速达到该极限。特别是,如果您多次使用相同的 numpy阵列,TensorFlow会为您的图形添加多个常量张量。

在你的情况下,由input_data.read_data_sets返回的mnist.train.images是一个numpy浮点数组,形状为(55000, 784),所以它约为164 MB。您将该numpy数组传递给rbm_layer.cd1,并在该函数内部,每次使用visibles时,将从numpy数组创建一个TensorFlow Const节点。您在3个位置使用visibiles,因此每拨打cd1将增加图表大小约492 MB,因此您很容易超出限制。解决的办法是创建一次TensorFlow不变并传递不断向cd1功能,像这样:

trX_constant = tf.constant(trX) 
for i in range(10): 
    print "RBM CD: ", i 
    rbm_layer.cd1(trX_constant) 

BTW,我不知道你的意图是在上面的循环是什么。请注意,cd1函数只是简单地将assign_add节点添加到图中,并不实际执行分配。如果你真的希望这些分配在你训练时发生,你应该考虑把这些分配通过控制依赖关系链接到你最终的节点上。

4

为了实现@ keveman的问题,我认为你正试图通过使用该循环来实现CD-k(Contrastive Divergence)步骤。

但我怕的代码是从合适到目前为止,因为CD-k是应该采取RBM自动分化的位置的功能。这意味着costtrain_op不是正确的方式与梯度下降RBM(这是因为CD-k的特殊作用)使用。顺便说一句,RBM层应该被逐个训练而不需要完全连接层这不在你的代码中。

我是tensorflow的新手,我也想要实现。我想我宁愿不使用由tensorflow提供的梯度下降,因为我需要CD-k进行特殊分化。希望我能尽快找到解决方案。

更新: 我已经在这个实施上工作了整整一个工作日。所以,这是目前的状态。我已经实现了一个简单直接的版本,但它只是得到错误的结果。 请参考code and result

我只是指从DeepLearnToolbox的具体方法。我认为我试图通过tensorflow实现的过程没问题,但不知道实际代码出了什么问题。

更新2:我修改了代码,现在我通过张量流实现了最简单的rbm。请参阅上面的code and result链接。