2014-03-13 34 views
0

我有一个链接到JavaScript文件的URL,例如http://something.com/../x.js。我需要提取一个变量从x.js使用python从url中提取javascript信息

是否有可能使用python做到这一点? 目前我使用urllib2.urlopen()但是当我使用.read()我得到这个可爱的烂摊子:

U�(��%y�d�<�!���P��&Y��iX���O�������<Xy�CH{]^7e� �K�\�͌h��,U(9\ni�A ��2dp}�9���t�<M�M,u�N��h�bʄ�uV�\��0�A1��Q�.)�A��XNc��$"SkD�y����5�)�B�t9�):�^6��`(���d��hH=9D5wwK'�E�j%�]U~��0U�~ʻ��)�pj��aA�?;n�px`�r�/8<?;�t��z�{��n��W 
�s�������h8����i�߸#}���}&�M�K�y��h�z�6,�Xc��!:'D|�s��,�g$�Y��H�T^#`r����f����tB��7��X�%�.X\��M9V[Z�Yl�LZ[ZM�F���`D�=ޘ5�A�0�){Ce�L*�k���������5����"�A��Y�}���t��X�(�O�̓�[�{���T�V��?:�s�i���ڶ�8m��6b��d$��j}��u�D&RL�[0>~x�jچ7� 

当我看在开发工具看到DOM,在体内的唯一的事情是包裹在标记的字符串。在常规视图中,字符串是一个json元素。

+0

尝试在网络浏览器中打开js文件,看看它是否确实是一个js文件 – karthikr

+0

它看起来像一个,它有一件事,一个json变量,其中有很多东西。 – EasilyBaffled

回答

4

.read()应该给你你在浏览器的“查看源文件”窗口中看到同样的事情,那么什么是错的。它看起来像HTTP响应可能gzipped,但urllib2 doesn't support gzipurllib2也不会请求压缩的数据,所以如果这是问题,服务器可能配置错误,但我认为这是失控的。

我建议改用requestsrequestsautomatically decompresses gzip-encoded responses,所以它应该为你解决这个问题。

import requests 
r = requests.get('https://something.com/x.js') 
r.text # unparsed json output, shouldn't be garbled 
r.json() # parses json and returns a dictionary 

一般来说,requests更容易比urllib2使用,所以我建议使用它无处不在,除非你绝对必须坚持标准库。

+0

所以它几乎在那里。 r.text让我的字符串,但r.json()失败'ValueError:没有JSON对象可以解码'和r.text.json()失败'AttributeError:'unicode'对象没有属性'json' ' – EasilyBaffled

+0

任何机会你可以分享_actual_网址 - 这将使这更容易排除故障! –

+0

或许你的URL像'var data = {foo:“bar”}''而不是原始的JSON那样返回JavaScript。在这种情况下,你需要做一些字符串操作来解析JSON,然后用'json.loads(s)'解析它。这可以像's = r.text [s.find(“{”):s.find(“}”)+ 1]'这么简单,如果JSON对象是第一次使用'{}'文件,但它可能更复杂。 JSON也比实际的JavaScript对象表示法稍微严格 - 例如,如果原始JavaScript使用'''而不是''',则会遇到问题。 – sjy

0
import json 

js = urllib2.urlopen("http://something.com/../x.js").read() 
data = json.loads(js) 
+0

对不起,但这不让我'ValueError:没有JSON对象可以解码 ' – EasilyBaffled