我想用BeautifulSoup从html文档中获取一些文本。对于我来说,这是一个非常相关的例子,它引发了一个奇怪而有趣的结果:在某个点之后,汤里充满了文本中的额外空间(一个空格将每个字母与下一个字母分开)。我试图搜索网络,以找到一个原因,但我只遇到了一些关于相反错误的消息(根本没有空格)。BeautifulSoup返回意外的额外空间
你有什么建议或暗示它为什么发生,以及如何解决这个问题?
这是我创造了非常基本的代码:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
这是从结果中的线,线哪里这个问题开始出现:
值= \” Giuseppe Labbate ogm?non vorremmo nuovi uccelli chiamati lontre \“> < input onmouseover = \”Tip('< cen terclass = \''title _ video \''> <b> G iuseppelabbateo g m? N 2 OÑvöR Ré米M O对N个U 0伏I U C C E的L-升I C H I一米的T I L O,N t个řË<
你为什么要印刷'ultrasoup'?它不应该是'汤'吗? – svineet
与其他网站的问题相同。我仍然试图找出这是BeautifulSoup还是基础lxml的问题。该软件在32位-python上运行时没有问题,并且在64位时失败。 – Matthias
我为'ultraoup'道歉,只是一个小错误。当然,正确的代码是'打印汤' –