2010-02-18 16 views
2

我对Python和编码一般都很陌生,但我一直在取得一些进展。Python的URL字符

我能够通过一个API从网络上拉出一些数据,结果应该是一个字符串。我所看到的是一些例子,如“& amp”和“& quot”(我修改了字符集,所以它会正确地打印到屏幕上)

我认为有一种方法可以清理这个字符串和删除字符,使它看起来像它在计算机屏幕上。我试图寻找urldecoding,但我承认,我甚至不知道这是否是解决方案。

任何帮助如何删除这些“额外”字符和产生一个可读的字符串将不胜感激!

非常感谢提前,

布洛克

+3

查看http://stackoverflow.com/questions/1208916/decoding-html-entities-with-python关键字是“HTML entity/ies”。许多python库可以帮助您以各种方式转换或处理这些库。 – mjv 2010-02-18 04:01:50

+0

你从哪里得到这些数据?推测这些是HTML或XML文件的一部分,在解析它时,解析器应该会自动为你解除它。 – 2010-02-18 04:52:11

回答

2

xml.sax.saxutils.unescape(数据[,实体):UNESCAPE '&安培', '& LT',和在数据串 '& GT'。

您可以通过传递字典作为可选实体参数来避开其他字符串的数据。键和值必须全部是字符串;每个键将被替换为其对应的值。 '& amp','& lt'和'& gt'总是未转义的,即使提供了实体。