2016-11-20 50 views
0

的Html我加载到BeutifulSoap4的格式如下:BeutifulSoap4和逃脱的HTML数据

\\u003C/span\\u003E\\u003Ca href=\\"javascript:void(0)\\" class=\\"something something22\\"\\u003EShowMore\\u003C/a\\u003E\\u003C/span\\u003E\\u003Cspan style=\\"display:none\\" class=\\"review-full-text\\"\\u003ESomething else.... 

因为这BeutifulSoap4都找不到HTML标签和,例如,它通常能够:

bsoup1.find_all("div", class_="some_class") 

有没有解决这个问题的标准方法?

+0

你是怎么得到这个字符串? – furas

回答

0

您可以尝试unicode_escape编码

data = '\\u003C/span\\u003E\\u003Ca href=\\"javascript:void(0)\\" class=\\"something something22\\"\\u003EShowMore\\u003C/a\\u003E\\u003C/span\\u003E\\u003Cspan style=\\"display:none\\" class=\\"review-full-text\\"\\u003ESomething' 

print(data.encode('utf-8').decode('unicode_escape')) 

7.2.4. Python Specific Encodings