使用Python对梵文（北印度语）文本进行主题建模

-1

任何人都可以帮助我解决Python中的这种解码问题吗？我已得到Python中的印地文文本的主题建模这个输出，现在我不能给它的蟒蛇进行解码，以获得在梵文输出（印地文）语言"\u0915"这样使用Python对梵文（北印度语）文本进行主题建模

[(0, u'0.573*"\u0915" + 0.360*"\u0930" + 0.304*"\u092e" + 0.270*"\u0928" + 0.246*"\u0938" + 0.217*"\u0932" + 0.189*"\u0926" + 0.189*"\u0924" + 0.184*"\u0939" + 0.182*"\u092f"'), 
(1, u'-0.485*"\u092e" + 0.381*"\u0924" + -0.359*"\u091f" + 0.307*"\u0935" + 0.260*"\u092c" + 0.229*"\u0926" + 0.202*"\u0939" + -0.147*"\u0938" + 0.133*"\u0926\u0930" + -0.126*"\u092a"'), 
(2, u'-0.378*"\u0938" + -0.343*"\u0932" + -0.295*"\u0935" + 0.276*"\u0930" + 0.272*"\u0915" + 0.268*"\u0926" + -0.253*"\u0939" + -0.192*"\u091f" + -0.163*"\u0926\u0930" + -0.148*"\u091c"'), 
(3, u'-0.508*"\u0930" + 0.392*"\u0924" + -0.323*"\u0938" + 0.296*"\u092e" + 0.179*"\u0939" + 0.178*"\u091a" + 0.169*"\u092f" + -0.166*"\u091c" + -0.133*"\u090f" + -0.125*"\u092a"'), 
(4, u'0.514*"\u0938" + -0.308*"\u0917" + -0.280*"\u091c" + -0.256*"\u0930" + 0.229*"\u0939" + -0.227*"\u092f" + 0.208*"\u0915" + -0.201*"\u0928" + -0.175*"\u0932" + 0.173*"\u0926"')]

来源

2016-07-07 Vishal Kumar Singh

那些_are_梵文码点。你在使用Python 2吗？ FWIW，你的第一个字符串是'u'0.573 * u“क”+ 0.360 * u“र”+ 0.304 * u“म”+ 0.270 * u“न”+ 0.246 * u“nts”+ 0.217 * u“ “+ 0.189 * u”‖“+ 0.189 * u”त“+ 0.184 * u”“+ 0.182 * u”“”'' –

你可以分享我的Python代码，这将帮助我将它转换为像u'0.573 * u“क”+ 0.360 * u“र”+ 0.304 * u“म”+ 0.270 * u“न”+ 0.246 * u“nts”+ 0.217 * u“ल”+ 0.189 * u“ + 0.189 * u“त”+ 0.184 * u“”“+ 0.182 * u”य“' –

您仍然没有告诉我们您使用的是什么版本的Python。对于Unicode问题，这非常重要，因为对Python 2的Unicode处理与在Python 3中的处理方式完全不同.FWIW，我使用Python 3来完成这种转换。我会尽快发布一些Python 2的代码，以帮助您。 –

的字符串嵌入到您的数据中是梵文字形的Unicode转义序列。这些转义序列用于最大化数据的可移植性。

下面是一些Python 2代码，它使用正则表达式模式从数据中提取数字和字形。

import re 

data = [ 
    (0, u'0.573*"\u0915" + 0.360*"\u0930" + 0.304*"\u092e" + 0.270*"\u0928" + 0.246*"\u0938" + 0.217*"\u0932" + 0.189*"\u0926" + 0.189*"\u0924" + 0.184*"\u0939" + 0.182*"\u092f"'), 
    (1, u'-0.485*"\u092e" + 0.381*"\u0924" + -0.359*"\u091f" + 0.307*"\u0935" + 0.260*"\u092c" + 0.229*"\u0926" + 0.202*"\u0939" + -0.147*"\u0938" + 0.133*"\u0926\u0930" + -0.126*"\u092a"'), 
    (2, u'-0.378*"\u0938" + -0.343*"\u0932" + -0.295*"\u0935" + 0.276*"\u0930" + 0.272*"\u0915" + 0.268*"\u0926" + -0.253*"\u0939" + -0.192*"\u091f" + -0.163*"\u0926\u0930" + -0.148*"\u091c"'), 
    (3, u'-0.508*"\u0930" + 0.392*"\u0924" + -0.323*"\u0938" + 0.296*"\u092e" + 0.179*"\u0939" + 0.178*"\u091a" + 0.169*"\u092f" + -0.166*"\u091c" + -0.133*"\u090f" + -0.125*"\u092a"'), 
    (4, u'0.514*"\u0938" + -0.308*"\u0917" + -0.280*"\u091c" + -0.256*"\u0930" + 0.229*"\u0939" + -0.227*"\u092f" + 0.208*"\u0915" + -0.201*"\u0928" + -0.175*"\u0932" + 0.173*"\u0926"') 
] 

pat = re.compile(r'(.*?)\*"(.*?)"\s*\+?\s*') 

for i, row in data: 
    print "\nRow", i 
    t = [(float(w), s) for w, s in pat.findall(row)] 
    for w, s in t: 
     print w, s

输出

Row 0 
0.573 क 
0.36 र 
0.304 म 
0.27 न 
0.246 स 
0.217 ल 
0.189 द 
0.189 त 
0.184 ह 
0.182 य 

Row 1 
-0.485 म 
0.381 त 
-0.359 ट 
0.307 व 
0.26 ब 
0.229 द 
0.202 ह 
-0.147 स 
0.133 दर 
-0.126 प 

Row 2 
-0.378 स 
-0.343 ल 
-0.295 व 
0.276 र 
0.272 क 
0.268 द 
-0.253 ह 
-0.192 ट 
-0.163 दर 
-0.148 ज 

Row 3 
-0.508 र 
0.392 त 
-0.323 स 
0.296 म 
0.179 ह 
0.178 च 
0.169 य 
-0.166 ज 
-0.133 ए 
-0.125 प 

Row 4 
0.514 स 
-0.308 ग 
-0.28 ज 
-0.256 र 
0.229 ह 
-0.227 य 
0.208 क 
-0.201 न 
-0.175 ल 
0.173 द

为了得到这个输出，您应该设置你的终端使用UTF-8编码。

FWIW，这是您的数据以更加用户友好的形式。要使用它，你需要告诉你的编辑器来保存你的脚本使用UTF-8编码，你必须必须在脚本的开始一个合法的UTF-8编码声明，如

# -*- coding: utf-8 -*- 

data = [ 
    (0, u'0.573*"क" + 0.360*"र" + 0.304*"म" + 0.270*"न" + 0.246*"स" + 0.217*"ल" + 0.189*"द" + 0.189*"त" + 0.184*"ह" + 0.182*"य"'), 
    (1, u'-0.485*"म" + 0.381*"त" + -0.359*"ट" + 0.307*"व" + 0.260*"ब" + 0.229*"द" + 0.202*"ह" + -0.147*"स" + 0.133*"दर" + -0.126*"प"'), 
    (2, u'-0.378*"स" + -0.343*"ल" + -0.295*"व" + 0.276*"र" + 0.272*"क" + 0.268*"द" + -0.253*"ह" + -0.192*"ट" + -0.163*"दर" + -0.148*"ज"'), 
    (3, u'-0.508*"र" + 0.392*"त" + -0.323*"स" + 0.296*"म" + 0.179*"ह" + 0.178*"च" + 0.169*"य" + -0.166*"ज" + -0.133*"ए" + -0.125*"प"'), 
    (4, u'0.514*"स" + -0.308*"ग" + -0.280*"ज" + -0.256*"र" + 0.229*"ह" + -0.227*"य" + 0.208*"क" + -0.201*"न" + -0.175*"ल" + 0.173*"द"') 
]

来源

2016-07-07 11:55:49

非常感谢，我使用的是Python2，但是这些输出对于关于主题的结论没有任何意义所以，你能告诉我如何在Devaragari（印地语）文本上做主题建模吗？我尝试过使用LDA，并被这些输出卡住 –

@VishalKumarSingh：对不起，我不知道任何有关主题建模或自然语言处理的内容。所以我不知道这些数据是什么意思，但我猜这些数字是某种类型的权重或概率。但是这对Unicode问题是一个单独的问题。所以，也许你应该问一个新问题，如果你能想出一个方法来说明它是堆栈溢出的主题。 –

如果我的答案帮助了你，请考虑[接受]（http://meta.stackexchange.com/a/5235）它。 –

使用Python对梵文（北印度语）文本进行主题建模

回答

相关问题