我正在网络报废,我想从任何网站的文本,所以我使用Beautiful Soup
。最初我发现get_text()
方法也返回JavaScript
代码,所以为了避免我碰到,我应该使用extract()
方法,但现在我有一个奇怪的问题,提取script
和style
标记Beautiful Soup
不承认其身体即使其目前在新`HTML。美丽的汤不能get_text使用后提取()
让我清楚你的第一个我这样做
soup = BeautifulSoup(HTMLRawData, 'html.parser')
print(soup.body)
这里print
声明打印所有html
数据 但是当我做
soup = BeautifulSoup(rawData, 'html.parser')
for script in soup(["script", "style"]):
script.extract() # rip it out
print(soup.body)
现在它正在打印None
为元素不存在但为了调试后,我做了soup.prettify()
然后它打印整个html
包括body
标签,也没有script
和style
标签:(现在我很困惑的是,为什么它的发生,如果body
存在比其为什么说None
请帮助谢谢
,我使用Python 3和BS4和rawData
是从网站上提取的HTML。
你迟到了,但这个axact解决方案谢谢你:) – maq
昨天刚刚有这个问题,并在这里寻找答案 –