mallet

    1热度

    1回答

    我想使用Mallet作为专家查找项目的一部分。我几乎是马利特的新手,但我知道它从一组文档中培养主题。假设我有50个由Mallet培训的主题。我想计算这个概率:p(topic|q)或者p(q|topic) q是查询。这是一个词(如算法,机器人等),我希望找到指定区域的专家。 当我读到这篇文章:how to get word-topic probability using mallet,其中一位用户说

    1热度

    2回答

    我正在尝试使用hLDA创建主题模型,然后根据该模型进行推理。但据我所见,主题推理工具只适用于LDA模型,对吗?有没有一种从hLDA模型推断主题的方法?

    1热度

    1回答

    我最近开始使用来自UMass的Mallet。我期待看看是否有一种方法可以通过命令删除前缀/后缀和收缩,就像stop-words有命令一样,但是我没有找到任何有关它的信息。如果Mallet可以做到这一点,有人可以指引我正确的方向。如果它不能,但还有其他的东西可以做到这一点,你能指出我的方向吗? 在此先感谢!

    0热度

    1回答

    我将文档排列在文件夹中作为类别称为类别。对于新的输入(例如问题),我必须确定它的类别。用MALLET做这件事的最好方法是什么?我已经阅读了多篇关于这方面的文章,但是找不到这种方法。 此外,我是否需要对输入文本进行序列标记?

    0热度

    1回答

    我是Mallet的新手,尝试使用CRF功能来执行命名实体识别。我知道有一个例子显示了如何在他们的网站上使用Java导入数据,但它处理纯文本(不是训练集格式)。 现在我有以下格式的可用培训数据(网站上显示的确切格式)。第一列是单词,第二列是标签。 a O 50 AGE year AGE old O man GENDER with O a O history O of O suici

    1热度

    1回答

    我想使用--use-ngrams true选项运行木槌,但似乎无法使其工作。 bin\mallet import-file --input ovary.txt --output ovary2.mallet --keep-sequence-bigrams --remove-stopwords bin\mallet train-topics --input ovary2.mallet --outp

    2热度

    1回答

    我试图找出分配给主题中每个单词的重量代表了马槌中的重量。 我假设这是某种形式的文档发生计数。不过,我很难弄清楚这个数字是如何得出的。 在我的模型,也有发生在多个主题几个单词,每个主题在他们分配不同的权重,这么清楚的数量是不字数在整个语料库。我的下一个猜测是,这个数字是分配给该主题的全套文档中单词的出现次数,但是当我尝试手动验证时,这似乎是不正确的。 作为一个例子:我训练模型在约12000文档语料库

    2热度

    1回答

    我试图运行在mallet [R包装标准语料库装载方法,更具体地说 instance <- mallet.import(names(txt$CELEX), txt$TEXT, stoplist.file = "stopwords.en.txt", token.regexp = "\\p{L}[\\p{L}\\p{P}]+\\p{L}") 然后我收到以下错误 Error in .jcall("RJ

    2热度

    2回答

    我试图使用Mallet字面上的主题建模和没有的expirience等我的目的是要得到,我现在所拥有的中号文件ñ主题,每个文档与一个或多个话题进行分类(文档1 =主题1;文档2 =主题2,可能主题3),并在未来对此文档进行分类。我试图首先使用bigartm,但在这个程序中没有发现任何分类,只有主题建模。所以槌,我创建了一个corpus.txt文件,格式如下: Doc.num. \t(tab) Lab

    2热度

    1回答

    我想将我的序列标签任务中的木槌包装到我的java代码中。但是,我不确定如何在槌子网站上使用数据导入准则来做到这一点。有人能帮我解决吗? 我的第一个问题是关于序列数据的导入。我在网站上看到的唯一数据格式是InstanceList,但是,我们应该如何用数据结构来描述序列。例如,如果我们有多个序列(A,B,C是标签): S1:A B B B B A B B; S2:B A B B B C; S3:C B