我总是使用阿拉伯语文本文件,并且为了避免编码问题,我根据Buckwalter的方案将阿拉伯字符翻译为英语(http://www.qamus.org/transliteration.htm)使用Python快速翻译阿拉伯语文本
这是我的代码,但是即使对于像400 kb的小文件,它也很慢。想法使其更快?
感谢
def transliterate(file):
data = open(file).read()
buckArab = {"'":"ء", "|":"آ", "?":"أ", "&":"ؤ", "<":"إ", "}":"ئ", "A":"ا", "b":"ب", "p":"ة", "t":"ت", "v":"ث", "g":"ج", "H":"ح", "x":"خ", "d":"د", "*":"ذ", "r":"ر", "z":"ز", "s":"س", "$":"ش", "S":"ص", "D":"ض", "T":"ط", "Z":"ظ", "E":"ع", "G":"غ", "_":"ـ", "f":"ف", "q":"ق", "k":"ك", "l":"ل", "m":"م", "n":"ن", "h":"ه", "w":"و", "Y":"ى", "y":"ي", "F":"ً", "N":"ٌ", "K":"ٍ", "~":"ّ", "o":"ْ", "u":"ُ", "a":"َ", "i":"ِ"}
for char in data:
for k, v in arabBuck.iteritems():
data = data.replace(k,v)
return data
有没有Urdu语言的任何字典? –
@ShanKhan - 不是我所知道的(不是我会知道的),但是你可以把上面的脚本,并修改字典来与乌尔都语一起工作。你只需要查找所有字母的Unicode代码。祝你好运! – larapsodia
谢谢我这样做,它的工作 –