的字符串嵌入到您的数据中是梵文字形的Unicode转义序列。这些转义序列用于最大化数据的可移植性。
下面是一些Python 2代码,它使用正则表达式模式从数据中提取数字和字形。
import re
data = [
(0, u'0.573*"\u0915" + 0.360*"\u0930" + 0.304*"\u092e" + 0.270*"\u0928" + 0.246*"\u0938" + 0.217*"\u0932" + 0.189*"\u0926" + 0.189*"\u0924" + 0.184*"\u0939" + 0.182*"\u092f"'),
(1, u'-0.485*"\u092e" + 0.381*"\u0924" + -0.359*"\u091f" + 0.307*"\u0935" + 0.260*"\u092c" + 0.229*"\u0926" + 0.202*"\u0939" + -0.147*"\u0938" + 0.133*"\u0926\u0930" + -0.126*"\u092a"'),
(2, u'-0.378*"\u0938" + -0.343*"\u0932" + -0.295*"\u0935" + 0.276*"\u0930" + 0.272*"\u0915" + 0.268*"\u0926" + -0.253*"\u0939" + -0.192*"\u091f" + -0.163*"\u0926\u0930" + -0.148*"\u091c"'),
(3, u'-0.508*"\u0930" + 0.392*"\u0924" + -0.323*"\u0938" + 0.296*"\u092e" + 0.179*"\u0939" + 0.178*"\u091a" + 0.169*"\u092f" + -0.166*"\u091c" + -0.133*"\u090f" + -0.125*"\u092a"'),
(4, u'0.514*"\u0938" + -0.308*"\u0917" + -0.280*"\u091c" + -0.256*"\u0930" + 0.229*"\u0939" + -0.227*"\u092f" + 0.208*"\u0915" + -0.201*"\u0928" + -0.175*"\u0932" + 0.173*"\u0926"')
]
pat = re.compile(r'(.*?)\*"(.*?)"\s*\+?\s*')
for i, row in data:
print "\nRow", i
t = [(float(w), s) for w, s in pat.findall(row)]
for w, s in t:
print w, s
输出
Row 0
0.573 क
0.36 र
0.304 म
0.27 न
0.246 स
0.217 ल
0.189 द
0.189 त
0.184 ह
0.182 य
Row 1
-0.485 म
0.381 त
-0.359 ट
0.307 व
0.26 ब
0.229 द
0.202 ह
-0.147 स
0.133 दर
-0.126 प
Row 2
-0.378 स
-0.343 ल
-0.295 व
0.276 र
0.272 क
0.268 द
-0.253 ह
-0.192 ट
-0.163 दर
-0.148 ज
Row 3
-0.508 र
0.392 त
-0.323 स
0.296 म
0.179 ह
0.178 च
0.169 य
-0.166 ज
-0.133 ए
-0.125 प
Row 4
0.514 स
-0.308 ग
-0.28 ज
-0.256 र
0.229 ह
-0.227 य
0.208 क
-0.201 न
-0.175 ल
0.173 द
为了得到这个输出,您应该设置你的终端使用UTF-8编码。
FWIW,这是您的数据以更加用户友好的形式。要使用它,你需要告诉你的编辑器来保存你的脚本使用UTF-8编码,你必须必须在脚本的开始一个合法的UTF-8编码声明,如
# -*- coding: utf-8 -*-
data = [
(0, u'0.573*"क" + 0.360*"र" + 0.304*"म" + 0.270*"न" + 0.246*"स" + 0.217*"ल" + 0.189*"द" + 0.189*"त" + 0.184*"ह" + 0.182*"य"'),
(1, u'-0.485*"म" + 0.381*"त" + -0.359*"ट" + 0.307*"व" + 0.260*"ब" + 0.229*"द" + 0.202*"ह" + -0.147*"स" + 0.133*"दर" + -0.126*"प"'),
(2, u'-0.378*"स" + -0.343*"ल" + -0.295*"व" + 0.276*"र" + 0.272*"क" + 0.268*"द" + -0.253*"ह" + -0.192*"ट" + -0.163*"दर" + -0.148*"ज"'),
(3, u'-0.508*"र" + 0.392*"त" + -0.323*"स" + 0.296*"म" + 0.179*"ह" + 0.178*"च" + 0.169*"य" + -0.166*"ज" + -0.133*"ए" + -0.125*"प"'),
(4, u'0.514*"स" + -0.308*"ग" + -0.280*"ज" + -0.256*"र" + 0.229*"ह" + -0.227*"य" + 0.208*"क" + -0.201*"न" + -0.175*"ल" + 0.173*"द"')
]
那些_are_梵文码点。你在使用Python 2吗? FWIW,你的第一个字符串是'u'0.573 * u“क”+ 0.360 * u“र”+ 0.304 * u“म”+ 0.270 * u“न”+ 0.246 * u“nts”+ 0.217 * u“ “+ 0.189 * u”‖“+ 0.189 * u”त“+ 0.184 * u”“+ 0.182 * u”“”'' –
你可以分享我的Python代码,这将帮助我将它转换为像u'0.573 * u“क”+ 0.360 * u“र”+ 0.304 * u“म”+ 0.270 * u“न”+ 0.246 * u“nts”+ 0.217 * u“ल”+ 0.189 * u“ + 0.189 * u“त”+ 0.184 * u“”“+ 0.182 * u”य“' –
您仍然没有告诉我们您使用的是什么版本的Python。对于Unicode问题,这非常重要,因为对Python 2的Unicode处理与在Python 3中的处理方式完全不同.FWIW,我使用Python 3来完成这种转换。我会尽快发布一些Python 2的代码,以帮助您。 –