mallet

1热度

1回答

我想使用Mallet作为专家查找项目的一部分。我几乎是马利特的新手，但我知道它从一组文档中培养主题。假设我有50个由Mallet培训的主题。我想计算这个概率：p(topic|q)或者p(q|topic) q是查询。这是一个词（如算法，机器人等），我希望找到指定区域的专家。当我读到这篇文章：how to get word-topic probability using mallet，其中一位用户说

1热度

2回答

hLDA的木槌推理器

我正在尝试使用hLDA创建主题模型，然后根据该模型进行推理。但据我所见，主题推理工具只适用于LDA模型，对吗？有没有一种从hLDA模型推断主题的方法？

1热度

1回答

有没有办法删除Mallet中的前缀/后缀和收缩

我最近开始使用来自UMass的Mallet。我期待看看是否有一种方法可以通过命令删除前缀/后缀和收缩，就像stop-words有命令一样，但是我没有找到任何有关它的信息。如果Mallet可以做到这一点，有人可以指引我正确的方向。如果它不能，但还有其他的东西可以做到这一点，你能指出我的方向吗？在此先感谢！

0热度

1回答

带有用Mallet进行序列标记的文本分类/文档分类

我将文档排列在文件夹中作为类别称为类别。对于新的输入（例如问题），我必须确定它的类别。用MALLET做这件事的最好方法是什么？我已经阅读了多篇关于这方面的文章，但是找不到这种方法。此外，我是否需要对输入文本进行序列标记？

0热度

1回答

如何使用Mallet Java API导入数据

我是Mallet的新手，尝试使用CRF功能来执行命名实体识别。我知道有一个例子显示了如何在他们的网站上使用Java导入数据，但它处理纯文本（不是训练集格式）。现在我有以下格式的可用培训数据（网站上显示的确切格式）。第一列是单词，第二列是标签。 a O 50 AGE year AGE old O man GENDER with O a O history O of O suici

1热度

1回答

如何在木槌中使用--use-ngrams

我想使用--use-ngrams true选项运行木槌，但似乎无法使其工作。 bin\mallet import-file --input ovary.txt --output ovary2.mallet --keep-sequence-bigrams --remove-stopwords bin\mallet train-topics --input ovary2.mallet --outp

2热度

1回答

在Mallet中计算的主题中单词的权重是多少？

我试图找出分配给主题中每个单词的重量代表了马槌中的重量。我假设这是某种形式的文档发生计数。不过，我很难弄清楚这个数字是如何得出的。在我的模型，也有发生在多个主题几个单词，每个主题在他们分配不同的权重，这么清楚的数量是不字数在整个语料库。我的下一个猜测是，这个数字是分配给该主题的全套文档中单词的出现次数，但是当我尝试手动验证时，这似乎是不正确的。作为一个例子：我训练模型在约12000文档语料库

2热度

1回答

rJava给出.jcall

我试图运行在mallet [R包装标准语料库装载方法，更具体地说 instance <- mallet.import(names(txt$CELEX), txt$TEXT, stoplist.file = "stopwords.en.txt", token.regexp = "\\p{L}[\\p{L}\\p{P}]+\\p{L}") 然后我收到以下错误 Error in .jcall("RJ

2热度

2回答

马槌基本用法。第一步

我试图使用Mallet字面上的主题建模和没有的expirience等我的目的是要得到，我现在所拥有的中号文件ñ主题，每个文档与一个或多个话题进行分类（文档1 =主题1;文档2 =主题2，可能主题3），并在未来对此文档进行分类。我试图首先使用bigartm，但在这个程序中没有发现任何分类，只有主题建模。所以槌，我创建了一个corpus.txt文件，格式如下： Doc.num. \t(tab) Lab

2热度

1回答

如何使用Mallet进行序列标记任务？

我想将我的序列标签任务中的木槌包装到我的java代码中。但是，我不确定如何在槌子网站上使用数据导入准则来做到这一点。有人能帮我解决吗？我的第一个问题是关于序列数据的导入。我在网站上看到的唯一数据格式是InstanceList，但是，我们应该如何用数据结构来描述序列。例如，如果我们有多个序列（A，B，C是标签）： S1：A B B B B A B B; S2：B A B B B C; S3：C B