2014-01-21 57 views
1

我不能处理聚类秧鸡库。我有字符串属性,所以我使用StringToWordVector过滤器,但是如何在聚类后从WordVector移回字符串表示以显示“可读性”结果? 我想恢复此操作:秧鸡StringToWordVector过滤器逆转(JAVA)

StringToWordVector filter = new StringToWordVector(); 
filter.setInputFormat(instancesToFilter); 
Instances dataFiltered = Filter.useFilter(instancesToFilter, filter); 

它可能吗?

回答

2

StringToWordVector过滤器不能倒过来。但是,你至少有两种可能性:

  • 如果你只是想看看或显示在每个集群中的原始字符串,您可以添加ID属性,确保集群中不使用(以避免意外行为),然后从原始字符串中恢复文本(ARFF文件)。
  • 如果要显示每个群集内容的一些有意义的摘要,则可以输出每个群集中最频繁/最重的单词。对文本进行聚类时,这是一种相当常见的方法。
1

该过滤器是有损

这样,存在不能存在的(精确)逆变换。不过,你可以用某种方式来近似它。

请考虑查看过滤器的源代码。