2015-05-11 68 views
2

所以,我希望这是一个真正的愚蠢的事情,我正在做,并有一个简单的答案。我试图训练一个2x3x1神经网络来完成XOR问题。它没有工作,所以我决定深入了解发生了什么。最后,我决定分配我的自我重量。这是我想出的权重向量:异或与神经网络(Matlab)

theta1 = [11 0 -5; 0 12 -7;18 17 -20]; 
theta2 = [14 13 -28 -6]; 

(在Matlab中表示法)。我故意试图使没有两个权重是一样的(除非在零)

而且,我的代码,在MATLAB很简单的是

function layer2 = xornn(iters) 
    if nargin < 1 
     iters = 50 
    end 
    function s = sigmoid(X) 
     s = 1.0 ./ (1.0 + exp(-X)); 
    end 
    T = [0 1 1 0]; 
    X = [0 0 1 1; 0 1 0 1; 1 1 1 1]; 
    theta1 = [11 0 -5; 0 12 -7;18 17 -20]; 
    theta2 = [14 13 -28 -6]; 
    for i = [1:iters] 
     layer1 = [sigmoid(theta1 * X); 1 1 1 1]; 
     layer2 = sigmoid(theta2 * layer1) 
     delta2 = T - layer2; 
     delta1 = layer1 .* (1-layer1) .* (theta2' * delta2); 
     % remove the bias from delta 1. There's no real point in a delta on the bias. 
     delta1 = delta1(1:3,:); 
     theta2d = delta2 * layer1'; 
     theta1d = delta1 * X'; 
     theta1 = theta1 - 0.1 * theta1d; 
     theta2 = theta2 - 0.1 * theta2d; 
    end 
end 

我相信这是正确的。我用有限差分方法测试了各种参数(theta),看看它们是否正确,而且它们似乎是正确的。

但是,当我运行它时,它最终只归结为返回全零。如果我做xornn(1)(1次迭代)我得到

0.0027 0.9966 0.9904 0.0008 

但是,如果我做xornn(35)

0.0026 0.9949 0.9572 0.0007 

(它开始在错误的方向上的后裔)和由(45)我得到

0.0018 0.0975 0.0000 0.0003 

如果我运行它10,000次迭代,它只是返回全0。

这是怎么回事?我必须添加正规化吗?我会认为这样一个简单的网络不需要它。但是,无论如何,为什么它摆脱了我亲手喂食的明显的良好解决方案?

谢谢!

回答

0

AAARRGGHHH!该解决方案是简单地改变

theta1 = theta1 - 0.1 * theta1d; 
theta2 = theta2 - 0.1 * theta2d; 

theta1 = theta1 + 0.1 * theta1d; 
theta2 = theta2 + 0.1 * theta2d; 

叹息

现在寿的问题,我需要弄清楚如何我计算了负的时,不知何故我什么以为我在计算是......没关系。无论如何,我会在这里发帖,以防万一它帮助别人。

所以,z =是sigmoid输入的总和,y是sigmoid的输出。

C = -(T * Log[y] + (1-T) * Log[(1-y)) 

dC/dy = -((T/y) - (1-T)/(1-y)) 
     = -((T(1-y)-y(1-T))/(y(1-y))) 
     = -((T-Ty-y+Ty)/(y(1-y))) 
     = -((T-y)/(y(1-y))) 
     = ((y-T)/(y(1-y))) # This is the source of all my woes. 
dy/dz = y(1-y) 
dC/dz = ((y-T)/(y(1-y))) * y(1-y) 
     = (y-T) 

因此,问题是,我不小心被计算的T-Y,因为我忘了在成本函数中的前面的负号。然后,我正在减去我认为的渐变,但实际上是负渐变。在那里。那就是问题所在。

一旦我做到了:

function layer2 = xornn(iters) 
    if nargin < 1 
     iters = 50 
    end 
    function s = sigmoid(X) 
     s = 1.0 ./ (1.0 + exp(-X)); 
    end 
    T = [0 1 1 0]; 
    X = [0 0 1 1; 0 1 0 1; 1 1 1 1]; 
    theta1 = [11 0 -5; 0 12 -7;18 17 -20]; 
    theta2 = [14 13 -28 -6]; 
    for i = [1:iters] 
     layer1 = [sigmoid(theta1 * X); 1 1 1 1]; 
     layer2 = sigmoid(theta2 * layer1) 
     delta2 = T - layer2; 
     delta1 = layer1 .* (1-layer1) .* (theta2' * delta2); 
     % remove the bias from delta 1. There's no real point in a delta on the bias. 
     delta1 = delta1(1:3,:); 
     theta2d = delta2 * layer1'; 
     theta1d = delta1 * X'; 
     theta1 = theta1 + 0.1 * theta1d; 
     theta2 = theta2 + 0.1 * theta2d; 
    end 
end 

xornn(50)返回0.0028 0.9972 0.9948 0.0009和 xornn(10000)返回0.0016 0.9989 0.9993 0。0005

唷!也许这会帮助别人调试他们的版本..