如何在张量流框架下获得最有价值的训练数据

如果我想向现有的分类模型添加更多的训练数据。由于标注训练数据的成本很高，我只想将最有价值的数据标注到现有模型中。如何在张量流框架下获得最有价值的训练数据

例如，我们只有两个班（A/B）在我们的分类问题，然后利用现有的模型来预测三个联合国标号数据，并获得概率分布：

Data    A B 
Case 1: features -> 0.9 0.1 
Case 2: features -> 0.6 0.4 
Case 3: features -> 0.5 0.5

案例3应该是最有价值的培训数据，因为当前模型不知道它属于哪个类。这样对吗？如果是的话，熵应该是一个很好的指标，但我不能找到执行tf.reduce_entropy在tensorflow

2017-04-04 Yuwen Yan

scipy.stats.entropy(pk)

你可以为你的标签数据的预测，然后计算熵为每个预测。

希望这会有所帮助！

2017-04-04 19:58:45 rmeertens

回答