2011-11-27 201 views
0

当我发送主机上的一些数据:解析响应

r = urllib2.Request(url, data = data, headers = headers) 
page = urllib2.urlopen(r) 

soup = BeautifulSoup(page.read(), fromEncoding="cp-1251") 
print page.read() 

我有这样的事情:

[{"command":"settings","settings":{"basePath":"\/","ajaxPageState":{"theme":"spsr","theme_token":"kRHUhchUVpxAMYL8Y8IoyYIcX0cPrUstziAi8gSmMYk","css":[]},"ajax":{"edit-submit":{"callback":"spsr_calculator_form_ajax","wrapper":"calculator_form","method":"replaceWith","event":"mousedown","keypress":true,"url":"\/ru\/system\/ajax","submit":{"_triggering_element_name":"submit"}}}},"merge":true},{"command":"insert","method":null,"selector":null,"data":"\u003cdiv id=\"calculator_form\"\u003e\u003cform action=\"\/ru\/service\/calculator\" method=\"post\" id=\"spsr-calculator-form\" accept-charset=\"UTF-8\"\u003e\u003cdiv\u003e\u003cinput id=\"edit-from-ship-region-id\" type=\"hidden\" name=\"from_ship_region_id\" value=\"\" \/\u003e\n\u003cinput type=\"hidden\" name=\"form_build_id\" value=\"form-0RK_WFli4b2kUDTxpoqsGPp14B_0yf6Fz9x7UK-T3w8\" \/\u003e\n\u003cinput type=\"hidden\" name=\"form_id\" value=\"spsr_calculator_form\" \/\u003e\n\u003c\/div\u003e\n\u003cdiv class=\"bg_p\"\u003e \n\u0421\u0435\u0439\u0447\u0430\u0441 \u0412\u044b... bla bla bla 

,但我想有一些,像这样:

​​

我该怎么办?

+2

如何添加一些标记和文字标题词来表示你实际在做什么(不是简单的“在python中解析响应”,这比你的实际问题更通用)。此外,请格式化您的第二个代码块以使用多行而不是一个连接。 –

+0

你执行过你的例子吗?你打电话给page.read()两次,这在我看来毫无意义。你在用汤做什么?这根本不用?! – Achim

+0

与@achim一致认为这里有些问题。你真的在调用JSON吗?或者你应该只是打印汤,而不是page.read()。无论哪种方式会引导你在一个更好的路线比当前的 – alonisser

回答

3

你得到的答案很可能是用JSON编码的。如果这是真的,那么使用BeautifulSoup没有任何意义(它是一个HTML/XML解析器)。如果您有JSON数据,则需要使用JSON解析器。拨打page.read()两次也没有任何意义,因为在第一次通话后它不会让你恢复正常。

重写你的要求的一部分,我们得到:

r = urllib2.Request(url, data = data, headers = headers) 
page = urllib2.urlopen(r) 
data = page.read() 

现在,而不是一个HTML解析器,我们需要使用JSON解析器。这可以用json库(在Python 2.6以来)完成:

import json 
decoded_data = json.loads(data) 

现在,只需找到您要提取该模型的一部分。考虑到你的例子,给你想打印出来的部分与“布拉布拉”,你可以这样写:

result = unicode(decoded_data[1][u'data']) 

为了调试试:

print result 
+2

不使用json - 使用simplejson。请勿使用urllib2使用请求。更好的python库的工作 – alonisser