2013-01-16 69 views
0

我正在使用Moses来创建语言模型。Moses的语料库文件格式

我跟着从这个链接的说明:Baseline System: Moses

我有谷歌1克文件看起来像:

</S> 95119665584 
<S>  95119665584 
,  30578667846 
.  22077031422 
<UNK> 21594821357 
the  19401194714 
-  16337125274 
of  12765289150 
and  12522922536 

这意味着,“的”字出现12765289150倍。

现在我要让从这个文件中的语言模型(“构建语言模型”),

我不知道这种文件格式将与摩西的工作。

在教程中他们正在使用“europarl-v6.en”,但我无法在网上找到它来检查文件格式。

LAST编辑:

我需要来表示每个信作为字,所以“你好”变为“H E的L-升○”。

按照我所说的表示每个单词后,应该使用哪种格式?

它应该是:

o f 
o f 
o f 
a n d 
a n d 

还是喜欢原来的格式:

o f  12765289150 
a n d  12522922536 

或者,也许在其他格式?

它仍然算作谷歌正克?我跟着链接:How can I use the Google Web N-gram corpus to build an LM as @ MukundKRoy建议,但我不知道如何使用它在我的情况下(1克,2克...我的新文件不是常量)。

如果有人能告诉我这个文件应该采用什么格式才能和SRILM一起使用,我会很高兴。 谢谢

回答

1

SRILM正在照顾1-2-3 ..克,不要打扰。

我做过类似的东西,看看在这里:

Moses Installation and Training Run-Through

PART II - Build a Model,部分Build Language Model,它正在完善与谷歌正克。

让我知道,如果这对你有效。

0

您可以使用CMU-Cambridge Statistical Language Modeling Toolkit来建立您的语言模型。请参阅wfreq2vocabtext2wngram。我认为LM的这种格式可以和摩西一起工作。

+0

谢谢,但我必须使用摩西,你知道什么是文件的格式? – Guy

+0

摩西可以使用SRILM和IRSTLM,我使用SRILM。既然你只有单数据的数据,所以不会有后退权重。所以按照SRILM格式,你需要有“概率”“单数”和第三列空白。试试这个... –

+0

我也使用SRILM,请看我的拳头编辑后。你知道女巫格式SRILM的工作吗? – Guy