mallet

    0热度

    1回答

    我想了解LDA主题模型如何在槌子API中实现。在ParallelTopicModel类中,我可以看到一个称为typeTopicCounts的2D int数组,它在buildInitialTypeTopicCounts()方法中通过一些按位操作初始化,并稍后用于每个文档。我的问题是这个数组值意味着什么?我只能从源代码中获得的信息是它被[特征索引,主题索引]索引。

    1热度

    1回答

    在Mallet中训练数据时,处理由于OutOfMemoryError而停止。 bin/mallet中的属性MEMORY已被设置为3GB。培训文件output.mallet的大小仅为31 MB。我试图减少训练数据的大小。但它仍然抛出了同样的错误: [email protected]:~/dev/test_models/Mallet$ bin/mallet train-classifier --inp

    1热度

    1回答

    我想通过添加另一个位置层来扩展LDA模型。 是否可以向Mallet添加另一个图层?如果是这样,我应该扩展哪些类? 的过程中我试图模型: 1.选择一个区域 2.选择一个主题 3.选择一个字

    1热度

    1回答

    所以我使用Mallet创建一个简单的标记器应用程序。 我知道如何在命令提示符下使用它,并且已经创建了分类器模型。 所以现在我该如何在代码中调用该模型,以便我可以制作一个界面。 因为我只能使用命令提示符加载模型。 我试图寻找Mallet页面,但它不在那里。任何人都知道吗? 我真的需要这个家伙,所以请帮助我。 TIA。 训练探索与创建模型 java命令 “C:\槌\类; C:\槌\ lib中\槌dep

    1热度

    1回答

    我在使用Mallet 2.0.7在Java中用于挖掘鸣叫。 根据文档,对于主题建模,我必须使用CsvIterator读取数据集。 Reader fileReader = new InputStreamReader(new FileInputStream(new File(args[0])), "UTF-8"); instances.addThruPipe(new CsvIterator

    0热度

    1回答

    我正在使用槌球库进行主题建模。我的数据集是在filePath路径和csvIterator似乎可以读取数据,因为model.getData()有大约27000行等于我的数据集。 我写了一个循环,打印10个第一个文档的实例和主题序列,但记号的大小是0.我哪里出错了? 在下面,我想显示前10个主题中的前10个词的比例,但所有输出都是相同的。在cosole出 例如: ----文档0 0 0.200 COM

    2热度

    2回答

    在MALLET主题建模中,--output-topic-keys [FILENAME]选项在每个主题旁边输出一个参数,该参数在MALLET站点的教程中称为主题的“Dirichlet参数”。 我想知道这个参数代表什么?在LDA模型中它是β吗?如果不是,它是什么意思和用途。 我注意到,当我在生成主题模型时未使用参数优化选项时,此参数在版本2.0.7中与2.0.8版中不同。我想知道为什么会发生这种差异。

    1热度

    1回答

    我正在尝试将MALLET用于中文文本的主题建模。作为第一步我用斯坦福字分割器得到的东西看起来像这样: > 关于 处理 五反运动 遗留 问题 的 指示 转发 华东局 批转 浙江 省委 批转 省委 办公厅 关于 粮食 统销 工作 与 处理 > 意见 的 报告 和 对 打击 富农 奸商 投机 破坏 的 指示 批转 中央 农村 工作部 关于 目前 各地 建立 农业 生产 合作社 > 情况 与 问题 向

    0热度

    1回答

    我是新来的主题建模和种类的困惑。我已经多次用不同的主题数量值运行MALLET。那么我怎么知道选择哪一个进行进一步分析呢?我知道有些论文涉及主题模型的评估,但我不能编写这样的代码。

    0热度

    1回答

    我用Mallet训练了一个maxent文档分类模型,结果是130MB,这对于我希望运行它的实例来说太大了。我想知道是否有办法潜在地减少模型的词汇量,从而减少整体模型的大小。有这样做的管道吗?我目前使用的管道是 Pipe instancePipe = new SerialPipes(new Pipe[]{ new Target2Label(), //creates label