training-data

    1热度

    1回答

    我正在尝试向nl-personTest.bin文件添加额外的训练数据,其中OpenNLP。 现在是我的问题,当我运行我的代码添加额外的训练数据时,它将删除已经存在的数据并只添加我的新数据。 如何添加额外的训练数据而不是替换它? 我没有使用下面的代码,(得到它来自Open NLP NER is not properly trained) public class TrainNames {

    -1热度

    1回答

    数据集源:https://archive.ics.uci.edu/ml/datasets/wine 完整的源代码(需要与NumPy,Python 3中):https://github.com/nave01314/NNClassifier 从我读过的东西,看来80%左右,培训20%VA的分裂验证数据接近最优。随着测试数据集大小的增加,验证结果的差异应以降低有效训练为代价降低(验证准确度较低)。 因此

    2热度

    2回答

    我有以下问题:我试图学习张量流程,但我仍然没有找到将培训设置为在线或批处理的位置。举例来说,如果我有以下的代码来训练神经网络: loss_op = tf.reduce_mean(tf.pow(neural_net(X) - Y, 2)) optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate) trai

    0热度

    1回答

    我有一个由图像组成的训练集,从女巫我必须预测由固定数量的字母和数字组成的标签。 将这些标签添加到张量流中的最佳方式是什么?我想创建一个数字列表,其中一个用于标签中的所有字符/数字。 我创建了一个清单,阿拉的可能值: __dict = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q

    1热度

    1回答

    根据this文章训练卷积神经网络时,训练集的准确性增加太多,而测试集的准确性稳定。 下面是与6400个训练样例,在每个历元随机选择的一个例子(这样一些实例中可能在先前时期中可以看出,一些可能是新的),和6400 相同试验例。 对于一个更大的数据集(64000或100000个训练样例),训练精度的提高更加突兀,在第三个时代将达到98。 我也试过使用相同的6400训练例子每个时代,随机洗牌。如预期的那

    0热度

    1回答

    我试图训练斯坦福NER分类器来识别文本数据库中的特定内容。我制作了一个新的.prop文件和一个培训文件,并且我得到了结果,但是如果我不经过训练即可运行分类器,它们会成为默认结果。我能做什么来适应这个? 这是我的代码: import edu.stanford.nlp.io.IOUtils; import edu.stanford.nlp.ling.CoreAnnotations; import

    1热度

    2回答

    我真的是python世界的新手。 我已经看到了在trainset和testset中分裂的例子。但仅限于数字类型。例如: import random with open("datafile.txt", "rb") as f: data = f.read().split('\n') random.shuffle(data) train_data = data[:50] test

    1热度

    1回答

    我想用卷积神经网络做多类多标签图像分类。 对于培训过程,我打算使用单热标签来准备我的标签。例如,有总共8个等级的是,和的样本图像可被分类为类别2,4和6。因此,标签将类似于 [0 1 0 1 0 1 0 0] 然而,该模型当前我的输入管线捎带上不会带有多标签的训练数据。我的同事并没有修改模型的输入流水线,而是建议替代重复训练数据。使用前面的示例,而不是使用3个标签输入一个训练数据,而是输入三个

    0热度

    1回答

    我试图用下面的代码来训练一个模型,但我一直收到DocumentCategorizerME.train()方法的错误,它告诉我将factory更改为doccatfactory。为什么? public void trainModel() { DoccatModel model = null; InputStream dataIn = null; try {

    1热度

    1回答

    我有一组标记的训练数据,我正在训练ML算法来预测标签。但是,我的一些数据点比其他数据点更重要。或者,类似地,这些点比其他点的不确定性更少。 是否有一种通用方法在模型中为每个训练点添加重要性代表权重?是否有一些具有这种能力的具体模型,而其他的则不是? 我可以想象复制这些点(也许稍微涂抹它们的特征以避免精确重复)或下采样不太重要的点。有没有更好的方法来解决这个问题?