2016-07-07 24 views
-1

任何人都可以帮助我解决Python中的这种解码问题吗? 我已得到Python中的印地文文本的主题建模这个输出,现在我不能给它的蟒蛇进行解码,以获得在梵文输出(印地文)语言"\u0915"这样使用Python对梵文(北印度语)文本进行主题建模

[(0, u'0.573*"\u0915" + 0.360*"\u0930" + 0.304*"\u092e" + 0.270*"\u0928" + 0.246*"\u0938" + 0.217*"\u0932" + 0.189*"\u0926" + 0.189*"\u0924" + 0.184*"\u0939" + 0.182*"\u092f"'), 
(1, u'-0.485*"\u092e" + 0.381*"\u0924" + -0.359*"\u091f" + 0.307*"\u0935" + 0.260*"\u092c" + 0.229*"\u0926" + 0.202*"\u0939" + -0.147*"\u0938" + 0.133*"\u0926\u0930" + -0.126*"\u092a"'), 
(2, u'-0.378*"\u0938" + -0.343*"\u0932" + -0.295*"\u0935" + 0.276*"\u0930" + 0.272*"\u0915" + 0.268*"\u0926" + -0.253*"\u0939" + -0.192*"\u091f" + -0.163*"\u0926\u0930" + -0.148*"\u091c"'), 
(3, u'-0.508*"\u0930" + 0.392*"\u0924" + -0.323*"\u0938" + 0.296*"\u092e" + 0.179*"\u0939" + 0.178*"\u091a" + 0.169*"\u092f" + -0.166*"\u091c" + -0.133*"\u090f" + -0.125*"\u092a"'), 
(4, u'0.514*"\u0938" + -0.308*"\u0917" + -0.280*"\u091c" + -0.256*"\u0930" + 0.229*"\u0939" + -0.227*"\u092f" + 0.208*"\u0915" + -0.201*"\u0928" + -0.175*"\u0932" + 0.173*"\u0926"')] 
+0

那些_are_梵文码点。你在使用Python 2吗? FWIW,你的第一个字符串是'u'0.573 * u“क”+ 0.360 * u“र”+ 0.304 * u“म”+ 0.270 * u“न”+ 0.246 * u“nts”+ 0.217 * u“ “+ 0.189 * u”‖“+ 0.189 * u”त“+ 0.184 * u”“+ 0.182 * u”“”'' –

+0

你可以分享我的Python代码,这将帮助我将它转换为像u'0.573 * u“क”+ 0.360 * u“र”+ 0.304 * u“म”+ 0.270 * u“न”+ 0.246 * u“nts”+ 0.217 * u“ल”+ 0.189 * u“ + 0.189 * u“त”+ 0.184 * u“”“+ 0.182 * u”य“' –

+0

您仍然没有告诉我们您使用的是什么版本的Python。对于Unicode问题,这非常重要,因为对Python 2的Unicode处理与在Python 3中的处理方式完全不同.FWIW,我使用Python 3来完成这种转换。我会尽快发布一些Python 2的代码,以帮助您。 –

回答

3

的字符串嵌入到您的数据中梵文字形的Unicode转义序列。这些转义序列用于最大化数据的可移植性。

下面是一些Python 2代码,它使用正则表达式模式从数据中提取数字和字形。

import re 

data = [ 
    (0, u'0.573*"\u0915" + 0.360*"\u0930" + 0.304*"\u092e" + 0.270*"\u0928" + 0.246*"\u0938" + 0.217*"\u0932" + 0.189*"\u0926" + 0.189*"\u0924" + 0.184*"\u0939" + 0.182*"\u092f"'), 
    (1, u'-0.485*"\u092e" + 0.381*"\u0924" + -0.359*"\u091f" + 0.307*"\u0935" + 0.260*"\u092c" + 0.229*"\u0926" + 0.202*"\u0939" + -0.147*"\u0938" + 0.133*"\u0926\u0930" + -0.126*"\u092a"'), 
    (2, u'-0.378*"\u0938" + -0.343*"\u0932" + -0.295*"\u0935" + 0.276*"\u0930" + 0.272*"\u0915" + 0.268*"\u0926" + -0.253*"\u0939" + -0.192*"\u091f" + -0.163*"\u0926\u0930" + -0.148*"\u091c"'), 
    (3, u'-0.508*"\u0930" + 0.392*"\u0924" + -0.323*"\u0938" + 0.296*"\u092e" + 0.179*"\u0939" + 0.178*"\u091a" + 0.169*"\u092f" + -0.166*"\u091c" + -0.133*"\u090f" + -0.125*"\u092a"'), 
    (4, u'0.514*"\u0938" + -0.308*"\u0917" + -0.280*"\u091c" + -0.256*"\u0930" + 0.229*"\u0939" + -0.227*"\u092f" + 0.208*"\u0915" + -0.201*"\u0928" + -0.175*"\u0932" + 0.173*"\u0926"') 
] 

pat = re.compile(r'(.*?)\*"(.*?)"\s*\+?\s*') 

for i, row in data: 
    print "\nRow", i 
    t = [(float(w), s) for w, s in pat.findall(row)] 
    for w, s in t: 
     print w, s 

输出

Row 0 
0.573 क 
0.36 र 
0.304 म 
0.27 न 
0.246 स 
0.217 ल 
0.189 द 
0.189 त 
0.184 ह 
0.182 य 

Row 1 
-0.485 म 
0.381 त 
-0.359 ट 
0.307 व 
0.26 ब 
0.229 द 
0.202 ह 
-0.147 स 
0.133 दर 
-0.126 प 

Row 2 
-0.378 स 
-0.343 ल 
-0.295 व 
0.276 र 
0.272 क 
0.268 द 
-0.253 ह 
-0.192 ट 
-0.163 दर 
-0.148 ज 

Row 3 
-0.508 र 
0.392 त 
-0.323 स 
0.296 म 
0.179 ह 
0.178 च 
0.169 य 
-0.166 ज 
-0.133 ए 
-0.125 प 

Row 4 
0.514 स 
-0.308 ग 
-0.28 ज 
-0.256 र 
0.229 ह 
-0.227 य 
0.208 क 
-0.201 न 
-0.175 ल 
0.173 द 

为了得到这个输出,您应该设置你的终端使用UTF-8编码。


FWIW,这是您的数据以更加用户友好的形式。要使用它,你需要告诉你的编辑器来保存你的脚本使用UTF-8编码,你必须必须在脚本的开始一个合法的UTF-8编码声明,如

# -*- coding: utf-8 -*- 

data = [ 
    (0, u'0.573*"क" + 0.360*"र" + 0.304*"म" + 0.270*"न" + 0.246*"स" + 0.217*"ल" + 0.189*"द" + 0.189*"त" + 0.184*"ह" + 0.182*"य"'), 
    (1, u'-0.485*"म" + 0.381*"त" + -0.359*"ट" + 0.307*"व" + 0.260*"ब" + 0.229*"द" + 0.202*"ह" + -0.147*"स" + 0.133*"दर" + -0.126*"प"'), 
    (2, u'-0.378*"स" + -0.343*"ल" + -0.295*"व" + 0.276*"र" + 0.272*"क" + 0.268*"द" + -0.253*"ह" + -0.192*"ट" + -0.163*"दर" + -0.148*"ज"'), 
    (3, u'-0.508*"र" + 0.392*"त" + -0.323*"स" + 0.296*"म" + 0.179*"ह" + 0.178*"च" + 0.169*"य" + -0.166*"ज" + -0.133*"ए" + -0.125*"प"'), 
    (4, u'0.514*"स" + -0.308*"ग" + -0.280*"ज" + -0.256*"र" + 0.229*"ह" + -0.227*"य" + 0.208*"क" + -0.201*"न" + -0.175*"ल" + 0.173*"द"') 
] 
+0

非常感谢,我使用的是Python2,但是这些输出对于关于主题的结论没有任何意义所以,你能告诉我如何在Devaragari(印地语)文本上做主题建模吗?我尝试过使用LDA,并被这些输出卡住 –

+0

@VishalKumarSingh:对不起,我不知道任何有关主题建模或自然语言处理的内容。所以我不知道这些数据是什么意思,但我猜这些数字是某种类型的权重或概率。但是这对Unicode问题是一个单独的问题。所以,也许你应该问一个新问题,如果你能想出一个方法来说明它是堆栈溢出的主题。 –

+1

如果我的答案帮助了你,请考虑[接受](http://meta.stackexchange.com/a/5235)它。 –

相关问题