我正在使用Moses来创建语言模型。Moses的语料库文件格式
我跟着从这个链接的说明:Baseline System: Moses
我有谷歌1克文件看起来像:
</S> 95119665584
<S> 95119665584
, 30578667846
. 22077031422
<UNK> 21594821357
the 19401194714
- 16337125274
of 12765289150
and 12522922536
这意味着,“的”字出现12765289150倍。
现在我要让从这个文件中的语言模型(“构建语言模型”),
我不知道这种文件格式将与摩西的工作。
在教程中他们正在使用“europarl-v6.en”,但我无法在网上找到它来检查文件格式。
LAST编辑:
我需要来表示每个信作为字,所以“你好”变为“H E的L-升○”。
按照我所说的表示每个单词后,应该使用哪种格式?
它应该是:
o f
o f
o f
a n d
a n d
还是喜欢原来的格式:
o f 12765289150
a n d 12522922536
或者,也许在其他格式?
它仍然算作谷歌正克?我跟着链接:How can I use the Google Web N-gram corpus to build an LM as @ MukundKRoy建议,但我不知道如何使用它在我的情况下(1克,2克...我的新文件不是常量)。
如果有人能告诉我这个文件应该采用什么格式才能和SRILM一起使用,我会很高兴。 谢谢
谢谢,但我必须使用摩西,你知道什么是文件的格式? – Guy
摩西可以使用SRILM和IRSTLM,我使用SRILM。既然你只有单数据的数据,所以不会有后退权重。所以按照SRILM格式,你需要有“概率”“单数”和第三列空白。试试这个... –
我也使用SRILM,请看我的拳头编辑后。你知道女巫格式SRILM的工作吗? – Guy