mallet

    4热度

    1回答

    我刚开始在槌子中使用SimpleTagger类。我的印象是它期望二进制功能。我想要实现的模型具有正整数值的特征,我想知道如何在槌子中实现它。另外,我听说如果模型有意义,非二进制特征需要进行标准化。我将不胜感激关于如何做到这一点的任何建议。 ps。是的,我知道有一个专门的木槌邮件列表,但我已经等了将近一天的时间,才能让我的订阅获得批准才能发布。我只是匆忙。

    2热度

    1回答

    我正在尝试使用Mallet的主题建模,但有一个问题。 我怎么知道我什么时候需要重建模型?例如,我有这么多的文档,我从网上爬过,使用Mallet提供的主题建模,我可能能够创建模型并用它推断文档。但是加班时间和我抓取的新数据可能会出现新的主题。在那种情况下,我怎么知道我是否应该从开始到现在重建模型? 我正在考虑为每个月抓取的文档这样做。有人可以请指教吗? 因此,话题建模更适合固定数量的话题下的文本(输