我正在使用Moses来创建语言模型。Moses的语料库文件格式

我跟着从这个链接的说明：Baseline System: Moses

我有谷歌1克文件看起来像：

</S> 95119665584 
<S>  95119665584 
,  30578667846 
.  22077031422 
<UNK> 21594821357 
the  19401194714 
-  16337125274 
of  12765289150 
and  12522922536

这意味着，“的”字出现12765289150倍。

现在我要让从这个文件中的语言模型（“构建语言模型”），

我不知道这种文件格式将与摩西的工作。

在教程中他们正在使用“europarl-v6.en”，但我无法在网上找到它来检查文件格式。

LAST编辑：

我需要来表示每个信作为字，所以“你好”变为“H E的L-升○”。

按照我所说的表示每个单词后，应该使用哪种格式？

它应该是：

o f 
o f 
o f 
a n d 
a n d

还是喜欢原来的格式：

o f  12765289150 
a n d  12522922536

或者，也许在其他格式？

它仍然算作谷歌正克？我跟着链接：How can I use the Google Web N-gram corpus to build an LM as @ MukundKRoy建议，但我不知道如何使用它在我的情况下（1克，2克...我的新文件不是常量）。

如果有人能告诉我这个文件应该采用什么格式才能和SRILM一起使用，我会很高兴。谢谢

来源

2013-01-16 Guy

SRILM正在照顾1-2-3 ..克，不要打扰。

我做过类似的东西，看看在这里：

Moses Installation and Training Run-Through

在PART II - Build a Model，部分Build Language Model，它正在完善与谷歌正克。

让我知道，如果这对你有效。

来源

2013-01-21 15:08:59

您可以使用CMU-Cambridge Statistical Language Modeling Toolkit来建立您的语言模型。请参阅wfreq2vocab和text2wngram。我认为LM的这种格式可以和摩西一起工作。

来源

2013-01-17 03:42:56

谢谢，但我必须使用摩西，你知道什么是文件的格式？ – Guy

摩西可以使用SRILM和IRSTLM，我使用SRILM。既然你只有单数据的数据，所以不会有后退权重。所以按照SRILM格式，你需要有“概率”“单数”和第三列空白。试试这个... –

我也使用SRILM，请看我的拳头编辑后。你知道女巫格式SRILM的工作吗？ – Guy

Moses的语料库文件格式

LAST编辑：

回答

相关问题