我想使用Mallet作为专家查找项目的一部分。我几乎是马利特的新手,但我知道它从一组文档中培养主题。假设我有50个由Mallet培训的主题。我想计算这个概率:p(topic|q)或者p(q|topic) q是查询。这是一个词(如算法,机器人等),我希望找到指定区域的专家。 当我读到这篇文章:how to get word-topic probability using mallet,其中一位用户说
我是Mallet的新手,尝试使用CRF功能来执行命名实体识别。我知道有一个例子显示了如何在他们的网站上使用Java导入数据,但它处理纯文本(不是训练集格式)。 现在我有以下格式的可用培训数据(网站上显示的确切格式)。第一列是单词,第二列是标签。 a O
50 AGE
year AGE
old O
man GENDER
with O
a O
history O
of O
suici
我想将我的序列标签任务中的木槌包装到我的java代码中。但是,我不确定如何在槌子网站上使用数据导入准则来做到这一点。有人能帮我解决吗? 我的第一个问题是关于序列数据的导入。我在网站上看到的唯一数据格式是InstanceList,但是,我们应该如何用数据结构来描述序列。例如,如果我们有多个序列(A,B,C是标签): S1:A B B B B A B B; S2:B A B B B C; S3:C B