2014-12-27 67 views
0

我需要使用MOSES创建印地语到英语翻译系统。我有一个包含大约10000个印地语句子和相应英文翻译的平行语料库。我遵循Baseline system creation page中描述的方法。但是,只是在第一阶段,当我想tokenise我的印地文语料,并试图执行使用MOSES统计机器翻译从印地语到英语

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi 

,该tokeniser给我下面的输出:

Tokenizer Version 1.1 
Language: hi 
Number of threads: 1 
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version... 

我即使'hin',但它试图仍然不承认语言。任何人都可以讲出制作翻译系统的正确方法吗?

回答

3

摩西不支持印地文为符号化的tokenizer.perl使用nonbreaking_prefix.*文件(从https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516

可从摩西不间断前缀的语言包括:

  • CA:加泰罗尼亚
  • CS:捷克语
  • de:德语
  • el:希腊语
  • EN:英语
  • ES:西班牙语
  • 网络连接:芬兰
  • FR:法国
  • 胡:匈牙利
  • 是:冰岛
  • 它:意大利
  • LV:拉脱维亚
  • nl:荷兰语
  • pl:波兰语
  • pt:P ortugese
  • RO:罗马尼亚
  • RU:俄罗斯
  • SK:斯洛伐克
  • SL:斯洛文尼亚
  • SV:瑞典
  • TA:泰米尔

https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes


然而,所有的希望都不会丢失,在用Moses训练机器翻译模型之前,你可以用其他的分词器来标记你的文字,尝试谷歌搜索“印地语Tokenziers”,他们周围有吨。

+0

问题提出:https://github.com/moses-smt/mosesdecoder/issues/90 – alvas 2014-12-28 22:28:23

+0

谢谢...有问题的回复 – avinash 2014-12-30 07:29:44