mallet

0热度

1回答

我想了解LDA主题模型如何在槌子API中实现。在ParallelTopicModel类中，我可以看到一个称为typeTopicCounts的2D int数组，它在buildInitialTypeTopicCounts()方法中通过一些按位操作初始化，并稍后用于每个文档。我的问题是这个数组值意味着什么？我只能从源代码中获得的信息是它被[特征索引，主题索引]索引。

1热度

1回答

Mallet：OutOfMemoryError：Java堆空间

在Mallet中训练数据时，处理由于OutOfMemoryError而停止。 bin/mallet中的属性MEMORY已被设置为3GB。培训文件output.mallet的大小仅为31 MB。我试图减少训练数据的大小。但它仍然抛出了同样的错误： [email protected]:~/dev/test_models/Mallet$ bin/mallet train-classifier --inp

1热度

1回答

使用Mallet扩展LDA模型

我想通过添加另一个位置层来扩展LDA模型。是否可以向Mallet添加另一个图层？如果是这样，我应该扩展哪些类？的过程中我试图模型： 1.选择一个区域 2.选择一个主题 3.选择一个字

1热度

1回答

在Netbeans中运行Mallet

所以我使用Mallet创建一个简单的标记器应用程序。我知道如何在命令提示符下使用它，并且已经创建了分类器模型。所以现在我该如何在代码中调用该模型，以便我可以制作一个界面。因为我只能使用命令提示符加载模型。我试图寻找Mallet页面，但它不在那里。任何人都知道吗？我真的需要这个家伙，所以请帮助我。 TIA。训练探索与创建模型 java命令 “C：\槌\类; C：\槌\ lib中\槌dep

1热度

1回答

创建自定义模式为我的数据集在槌

我在使用Mallet 2.0.7在Java中用于挖掘鸣叫。根据文档，对于主题建模，我必须使用CsvIterator读取数据集。 Reader fileReader = new InputStreamReader(new FileInputStream(new File(args[0])), "UTF-8"); instances.addThruPipe(new CsvIterator

0热度

1回答

获取槌球中所有文档的实例和主题序列

我正在使用槌球库进行主题建模。我的数据集是在filePath路径和csvIterator似乎可以读取数据，因为model.getData（）有大约27000行等于我的数据集。我写了一个循环，打印10个第一个文档的实例和主题序列，但记号的大小是0.我哪里出错了？在下面，我想显示前10个主题中的前10个词的比例，但所有输出都是相同的。在cosole出例如： ----文档0 0 0.200 COM

2热度

2回答

木槌主题建模 - 主题键输出参数

在MALLET主题建模中，--output-topic-keys [FILENAME]选项在每个主题旁边输出一个参数，该参数在MALLET站点的教程中称为主题的“Dirichlet参数”。我想知道这个参数代表什么？在LDA模型中它是β吗？如果不是，它是什么意思和用途。我注意到，当我在生成主题模型时未使用参数优化选项时，此参数在版本2.0.7中与2.0.8版中不同。我想知道为什么会发生这种差异。

1热度

1回答

中文字符在导入到MALLET时出现乱码

我正在尝试将MALLET用于中文文本的主题建模。作为第一步我用斯坦福字分割器得到的东西看起来像这样： > 关于处理五反运动遗留问题的指示转发华东局批转浙江省委批转省委办公厅关于粮食统销工作与处理 > 意见的报告和对打击富农奸商投机破坏的指示批转中央农村工作部关于目前各地建立农业生产合作社 > 情况与问题向

0热度

1回答

选择一个主题模型

我是新来的主题建模和种类的困惑。我已经多次用不同的主题数量值运行MALLET。那么我怎么知道选择哪一个进行进一步分析呢？我知道有些论文涉及主题模型的评估，但我不能编写这样的代码。

0热度

1回答

Mallet文档分类 - 缩小词汇大小

我用Mallet训练了一个maxent文档分类模型，结果是130MB，这对于我希望运行它的实例来说太大了。我想知道是否有办法潜在地减少模型的词汇量，从而减少整体模型的大小。有这样做的管道吗？我目前使用的管道是 Pipe instancePipe = new SerialPipes(new Pipe[]{ new Target2Label(), //creates label