gradient-descent

    0热度

    1回答

    Tensorflow渐变对于位于第一个conv层后的conv层始终为零。我试过不同的方法来检查,但渐变总是零!这是可以运行检查的小型可重复代码。 from __future__ import absolute_import from __future__ import division from __future__ import print_function import tensorf

    4热度

    1回答

    我想在TensorFlow中构建分类器时使用带有动量的梯度下降(记录以前的梯度)。 所以我不想使用tensorflow.train.GradientDescentOptimizer,但我想用tensorflow.gradients来计算渐变并跟踪以前的渐变并根据它们全部更新权重。 如何在TensorFlow中执行此操作?

    3热度

    2回答

    你能否解释下面的话,它真的让我困惑。 1.iterations 2.梯度下降步骤 3.epoch 4.批量大小。

    0热度

    1回答

    我有一个约300000个例子和约50-60功能的训练集,它也是一个多类约7类。我有我的逻辑回归函数,用梯度下降找出参数的收敛性。我的梯度下降算法以矩阵形式查找参数,因为它在矩阵形式中比在循环中单独和线性地执行更快。 例如: 矩阵(P)< - 矩阵(P) - LearningRate(T(矩阵(X))*(矩阵(H(X))矩阵(Y))) 对于小的训练数据,这是相当快,并给出正确的值,最大迭代大约为10

    0热度

    1回答

    Hugo Larochelle在任何人都可以给出这个 lecture第8分钟的收敛测试的解释吗?

    2热度

    1回答

    我刚开始学习机器学习和神经网络,所以我仍在努力理解反向传播是如何工作的。 我试图在Java中开发一个简单的NN,使用简单的基于矩阵的方法。如果我只放一个训练样例,则网络完美工作,但如果我尝试使用更多,则输出始终是训练期望输出的平均值。 http://neuralnetworksanddeeplearning.com/images/tikz21.png package neuralnetwork;

    0热度

    1回答

    我想了解关于交互深度为1的二进制分类的xgb.dump中发生了什么的直觉。具体说明如何在同一行中使用同一分割(f38 < 2.5)(代码行2和6) 产生的输出如下所示: xgb.dump(model_2,with.stats=T) [1] "booster[0]" [2] "0:[f38<2.5] yes=1,no=2,missing=1,gain=173.793,cover=

    1热度

    1回答

    我无法理解二维中的梯度下降。说我有功能f(x,y)=x**2-xy其中df/dx = 2x-y和df/dy = -x。 因此,对于点df(2,3),输出向量是[1,-2] .T。矢量[1,-2]所指向的任何位置都在最陡上升(f(x,y)的输出)的方向上。 我应该选择一个固定的步长,并找到方向,这样一个步骤的大小增加f(x,y)最多。如果我想下降,我想找到最快增加-f(x,y)的方向? 如果我的直觉

    0热度

    1回答

    对于大学项目,我想训练一个(模拟的)机器人在给定位置和速度的情况下击球。首先要尝试的是策略梯度:我有一个参数轨迹生成器。对于每个训练位置,我通过我的网络提供位置,发送弹道到模拟器并获得回报。我现在可以使用它作为损失,对梯度进行采样,将其反馈回来并更新网络的权重,以便下次更好。 因此,目标是学习从位置到轨迹权重的映射。当使用像Theano和Tensorflow(或Keras)这样的全明星计算图形库时

    0热度

    1回答

    我实现了具有梯度下降的神经网络的偏倚单位。但我不是100%确定如果我已经以正确的方式实施它。如果你可以快速查看我的代码,那么将是空旷的。只有 如果偏置部分: 是很重要的。 而我的第二个问题: 不应该softmax函数的导数为1-x,因为x是softmax函数的输出吗? 我用1-x试过了我的网,但其性能更差。 每一个帮助表示赞赏。 在此先感谢。 import numpy as np import