training-data

1热度

1回答

我正在尝试向nl-personTest.bin文件添加额外的训练数据，其中OpenNLP。现在是我的问题，当我运行我的代码添加额外的训练数据时，它将删除已经存在的数据并只添加我的新数据。如何添加额外的训练数据而不是替换它？我没有使用下面的代码，（得到它来自Open NLP NER is not properly trained） public class TrainNames {

-1热度

1回答

为什么50-50火车/测试分裂的工作最适合这个神经网络的数据集的178个观察？

数据集源：https://archive.ics.uci.edu/ml/datasets/wine 完整的源代码（需要与NumPy，Python 3中）：https://github.com/nave01314/NNClassifier 从我读过的东西，看来80％左右，培训20％VA的分裂验证数据接近最优。随着测试数据集大小的增加，验证结果的差异应以降低有效训练为代价降低（验证准确度较低）。因此

2热度

2回答

张量流程中的默认在线或批量培训

我有以下问题：我试图学习张量流程，但我仍然没有找到将培训设置为在线或批处理的位置。举例来说，如果我有以下的代码来训练神经网络： loss_op = tf.reduce_mean(tf.pow(neural_net(X) - Y, 2)) optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate) trai

0热度

1回答

在张量流中喂食标签的最佳方法

我有一个由图像组成的训练集，从女巫我必须预测由固定数量的字母和数字组成的标签。将这些标签添加到张量流中的最佳方式是什么？我想创建一个数字列表，其中一个用于标签中的所有字符/数字。我创建了一个清单，阿拉的可能值： __dict = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q

1热度

1回答

培训准确性增加，测试准确性稳定

根据this文章训练卷积神经网络时，训练集的准确性增加太多，而测试集的准确性稳定。下面是与6400个训练样例，在每个历元随机选择的一个例子（这样一些实例中可能在先前时期中可以看出，一些可能是新的），和6400 相同试验例。对于一个更大的数据集（64000或100000个训练样例），训练精度的提高更加突兀，在第三个时代将达到98。我也试过使用相同的6400训练例子每个时代，随机洗牌。如预期的那

0热度

1回答

斯坦福NER不会使用我的培训文件，而是使用它的默认设置

我试图训练斯坦福NER分类器来识别文本数据库中的特定内容。我制作了一个新的.prop文件和一个培训文件，并且我得到了结果，但是如果我不经过训练即可运行分类器，它们会成为默认结果。我能做什么来适应这个？这是我的代码： import edu.stanford.nlp.io.IOUtils; import edu.stanford.nlp.ling.CoreAnnotations; import

1热度

2回答

用输入的字符串分割成trainset和testset

我真的是python世界的新手。我已经看到了在trainset和testset中分裂的例子。但仅限于数字类型。例如： import random with open("datafile.txt", "rb") as f: data = f.read().split('\n') random.shuffle(data) train_data = data[:50] test

1热度

1回答

使用单标签训练数据的多类多标签分类

我想用卷积神经网络做多类多标签图像分类。对于培训过程，我打算使用单热标签来准备我的标签。例如，有总共8个等级的是，和的样本图像可被分类为类别2，4和6。因此，标签将类似于 [0 1 0 1 0 1 0 0] 然而，该模型当前我的输入管线捎带上不会带有多标签的训练数据。我的同事并没有修改模型的输入流水线，而是建议替代重复训练数据。使用前面的示例，而不是使用3个标签输入一个训练数据，而是输入三个

0热度

1回答

训练分类模型Opennlp

我试图用下面的代码来训练一个模型，但我一直收到DocumentCategorizerME.train()方法的错误，它告诉我将factory更改为doccatfactory。为什么？ public void trainModel() { DoccatModel model = null; InputStream dataIn = null; try {

1热度

1回答

机器学习：按重要性加权训练点

我有一组标记的训练数据，我正在训练ML算法来预测标签。但是，我的一些数据点比其他数据点更重要。或者，类似地，这些点比其他点的不确定性更少。是否有一种通用方法在模型中为每个训练点添加重要性代表权重？是否有一些具有这种能力的具体模型，而其他的则不是？我可以想象复制这些点（也许稍微涂抹它们的特征以避免精确重复）或下采样不太重要的点。有没有更好的方法来解决这个问题？