mallet

    -1热度

    1回答

    我想在Eclipse中使用mallet对文档(wsdl文件)进行预处理。我想要生成特征向量并使用短槌和MaxEntropy执行分类。我是新的使用槌,任何人都可以在这方面指导我。 感谢

    1热度

    1回答

    使用Mallet时,如何获取与每个文档相关的主题列表?我想我需要使用火车主题和 - 输出主题文档,但是当我这样做时,我会遇到一个错误。 我用槌(2.0.8),我用下面的bash脚本做我的造型: MALLET=/Users/emorgan/desktop/mallet/bin/mallet INPUT=/Users/emorgan/desktop/sermons OBJECT=./object.

    -1热度

    1回答

    我在使用Mallet R软件包时遇到了很大的问题。我训练了一个很酷的模型,并希望与我的同事分享,但我该怎么做呢?那么,我找到了用mallet.model$writeState()保存的方法,但是我的同事无法上传它。怎么了?有其他软件包可以帮助我吗?

    -1热度

    1回答

    我对这种计算机工作非常陌生,并且无法创建路径。我查了一篇关于如何在线完成这个教程的教程,并将所有内容都发送到了一个tee,但是当我尝试更改目录路径时,它无法正常工作。这就是我所做的 - 下载Java开发工具包 下载槌2.0.7 移动槌2.0.7下载到我的C驱动器 增添了新的环境变量 - C:\槌2.0.7 使用我以前做的CMD得到C:> cd mallet-2.0.7 然后,我得到错误消息“系统找

    0热度

    1回答

    在培训主题模型时,MALLET通过使用--output-doc-topics参数生成包含每个文档主题分布的制表符分隔文件。它看起来像这样: doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... 但是,我需要此文件以不同的方式排序进一步处理。现在,这些列

    1热度

    2回答

    我想使用木槌作为培训主题。我的数据在一个文件中,所以我研究了如何构建这个One Single文件的木槌文档。 在Mallet website,每行部分一个文件,一个实例下,有人说: [URL] [语言] [页的文字...] 在这种情况下,每行的第一个标记 (空格分隔,带有可选逗号)将成为实例名称,第二个标记将成为标签,并且该行上的所有其他 文本将被解释为一系列的单词标记。 所以根据上述报价,我创造

    0热度

    1回答

    从我在文档和各种示例中看到的, 典型的使用Mallet中的数据的worfklow要求您使用通常通过将数据传递到“管道“,同时用某种迭代器对它们进行迭代。数据通常存储在某个csv文件中。 我想从两个双打数组中获取功能列表。 一个数组存储实际要素,大小为n x m(其中n是要素的数量,m是要素矢量的数量),另一个大小为1 x m且包含二进制标签。我应该如何将它们转换为特征列表,以便我可以在分类器中使用

    1热度

    1回答

    我正在等待我的邮件列表中的成员身份得到确认,所以我想我会在这里问这个问题,以便稍微加快一点。 我正在写关于主题建模的硕士论文,并使用LDA和HLDA的Mallet实现。 我工作在一个超过400万文件的语料库。虽然LDA(ParallelTopicModel)正确处理数据集,我没有遇到任何问题,但HLDA无法再走得更远,然后让我们说5-6次迭代,然后填充所有可用内存(我甚至用90g RAM运行程序)

    1热度

    2回答

    我使用LDA在木槌探索我的数据。我没有与运行相关的任何问题,只是我需要的顶部词的概率(比方说20个字) 我使用此查询: bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-

    3热度

    1回答

    我试图以某种方式比较一个单独的文档的主题分布(使用LDA),其他文件及其在先前创建的主题模型中的主题分布,使用MALLET。 我知道这可以通过终端中的MALLET命令来完成,但我在找到一种方法来实现这个在Java中的问题。 为了给什么我的程序的功能是一个要点: 已经建立的主题模型用大量语料文本的创造。我想用它来比较主题分布与包含特定主题标签的推文,然后从文集中提取最类似于推文的文件。 我仔细阅读了