我需要使用MOSES创建印地语到英语翻译系统。我有一个包含大约10000个印地语句子和相应英文翻译的平行语料库。我遵循Baseline system creation page中描述的方法。但是,只是在第一阶段,当我想tokenise我的印地文语料,并试图执行使用MOSES统计机器翻译从印地语到英语
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi
,该tokeniser给我下面的输出:
Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...
我即使'hin'
,但它试图仍然不承认语言。任何人都可以讲出制作翻译系统的正确方法吗?
问题提出:https://github.com/moses-smt/mosesdecoder/issues/90 – alvas 2014-12-28 22:28:23
谢谢...有问题的回复 – avinash 2014-12-30 07:29:44