使用MOSES统计机器翻译从印地语到英语

我需要使用MOSES创建印地语到英语翻译系统。我有一个包含大约10000个印地语句子和相应英文翻译的平行语料库。我遵循Baseline system creation page中描述的方法。但是，只是在第一阶段，当我想tokenise我的印地文语料，并试图执行使用MOSES统计机器翻译从印地语到英语

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi

，该tokeniser给我下面的输出：

Tokenizer Version 1.1 
Language: hi 
Number of threads: 1 
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...

我即使'hin'，但它试图仍然不承认语言。任何人都可以讲出制作翻译系统的正确方法吗？

来源

2014-12-27 avinash

摩西不支持印地文为符号化的tokenizer.perl使用nonbreaking_prefix.*文件（从https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516）

可从摩西不间断前缀的语言包括：

CA：加泰罗尼亚
CS：捷克语
de：德语
el：希腊语
EN：英语
ES：西班牙语
网络连接：芬兰
FR：法国
胡：匈牙利
是：冰岛
它：意大利
LV：拉脱维亚
nl：荷兰语
pl：波兰语
pt：P ortugese
RO：罗马尼亚
RU：俄罗斯
SK：斯洛伐克
SL：斯洛文尼亚
SV：瑞典
TA：泰米尔

从https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes

然而，所有的希望都不会丢失，在用Moses训练机器翻译模型之前，你可以用其他的分词器来标记你的文字，尝试谷歌搜索“印地语Tokenziers”，他们周围有吨。

来源

2014-12-28 22:21:46 alvas

问题提出：https：//github.com/moses-smt/mosesdecoder/issues/90 – alvas 2014-12-28 22:28:23

谢谢...有问题的回复 – avinash 2014-12-30 07:29:44

使用MOSES统计机器翻译从印地语到英语

回答

相关问题