我做我在语言学项目(语言为马拉雅拉姆语),从每个项目的整数和统一码。提取列表
我的目录是
x= [u'1\u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200d', u'5\u0d05\u0d35\u0d28\u0d4d\u200d']
我想提取从列表中每个项目的整数和统一码。
预期的输出是
1 \u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200
5 \u0d05\u0d35\u0d28\u0d4d\u200d
首先我试图到第一项x [0]转换成ASCII
print unicodedata.normalize('NFKD',x[0]).encode('ascii','ignore')
输出为1。
我认为产生这种输出,因为在列表中的Unicode是马拉雅拉姆语。
然后我试图找到这样发生的“\ U”状
x[0].index("\u")
错误的第一指标。
看看这里蟒'更多信息repr'功能:HTTP:// stackove rflow.com/questions/7784148/understanding-repr-function-in-python – jayelm