mallet

-1热度

1回答

我想在Eclipse中使用mallet对文档（wsdl文件）进行预处理。我想要生成特征向量并使用短槌和MaxEntropy执行分类。我是新的使用槌，任何人都可以在这方面指导我。感谢

1热度

1回答

使用Mallet时，如何获取与每个文档相关的主题列表？我想我需要使用火车主题和 - 输出主题文档，但是当我这样做时，我会遇到一个错误。我用槌（2.0.8），我用下面的bash脚本做我的造型： MALLET=/Users/emorgan/desktop/mallet/bin/mallet INPUT=/Users/emorgan/desktop/sermons OBJECT=./object.

-1热度

1回答

如何在R中共享槌子模型

我在使用Mallet R软件包时遇到了很大的问题。我训练了一个很酷的模型，并希望与我的同事分享，但我该怎么做呢？那么，我找到了用mallet.model$writeState()保存的方法，但是我的同事无法上传它。怎么了？有其他软件包可以帮助我吗？

-1热度

1回答

木槌下载问题

我对这种计算机工作非常陌生，并且无法创建路径。我查了一篇关于如何在线完成这个教程的教程，并将所有内容都发送到了一个tee，但是当我尝试更改目录路径时，它无法正常工作。这就是我所做的 - 下载Java开发工具包下载槌2.0.7 移动槌2.0.7下载到我的C驱动器增添了新的环境变量 - C：\槌2.0.7 使用我以前做的CMD得到C：> cd mallet-2.0.7 然后，我得到错误消息“系统找

0热度

1回答

更改MALLET中主题分配文件中的列顺序

在培训主题模型时，MALLET通过使用--output-doc-topics参数生成包含每个文档主题分布的制表符分隔文件。它看起来像这样： doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... 但是，我需要此文件以不同的方式排序进一步处理。现在，这些列

1热度

2回答

木槌构图文件中的null-sources

我想使用木槌作为培训主题。我的数据在一个文件中，所以我研究了如何构建这个One Single文件的木槌文档。在Mallet website，每行部分一个文件，一个实例下，有人说： [URL] [语言] [页的文字...] 在这种情况下，每行的第一个标记（空格分隔，带有可选逗号）将成为实例名称，第二个标记将成为标签，并且该行上的所有其他文本将被解释为一系列的单词标记。所以根据上述报价，我创造

0热度

1回答

如何使用双精度数组作为Mallet中的特征向量

从我在文档和各种示例中看到的，典型的使用Mallet中的数据的worfklow要求您使用通常通过将数据传递到“管道“，同时用某种迭代器对它们进行迭代。数据通常存储在某个csv文件中。我想从两个双打数组中获取功能列表。一个数组存储实际要素，大小为n x m（其中n是要素的数量，m是要素矢量的数量），另一个大小为1 x m且包含二进制标签。我应该如何将它们转换为特征列表，以便我可以在分类器中使用

1热度

1回答

分级LDA吃掉所有可用内存，永远不会结束

我正在等待我的邮件列表中的成员身份得到确认，所以我想我会在这里问这个问题，以便稍微加快一点。我正在写关于主题建模的硕士论文，并使用LDA和HLDA的Mallet实现。我工作在一个超过400万文件的语料库。虽然LDA（ParallelTopicModel）正确处理数据集，我没有遇到任何问题，但HLDA无法再走得更远，然后让我们说5-6次迭代，然后填充所有可用内存（我甚至用90g RAM运行程序）

1热度

2回答

如何让主题的词的概率槌

我使用LDA在木槌探索我的数据。我没有与运行相关的任何问题，只是我需要的顶部词的概率（比方说20个字）我使用此查询： bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-

3热度

1回答

如何获取新文档的主题矢量并与Mallet中的预定义主题模型进行比较？

我试图以某种方式比较一个单独的文档的主题分布（使用LDA），其他文件及其在先前创建的主题模型中的主题分布，使用MALLET。我知道这可以通过终端中的MALLET命令来完成，但我在找到一种方法来实现这个在Java中的问题。为了给什么我的程序的功能是一个要点：已经建立的主题模型用大量语料文本的创造。我想用它来比较主题分布与包含特定主题标签的推文，然后从文集中提取最类似于推文的文件。我仔细阅读了