这是从网站的源代码布局:BS4如何在不使用.text的情况下获取文本?
<div class="address">
<a href="https://website.ca/classifieds/59-barclay-street/">
59 Some Street<br />City, Zone 1
</a>
</div>
我想获得的街道号码,路线,以及城市地理编码谷歌。如果我这样做
>>>article.find('div', {'class': 'address'}).text
'59 Some StreetCity, Zone 1'
它带走了<br />
,我离开了,没有办法从分裂城市的航线。如果我做str().replace('<br />',', ')
那么我必须以某种方式将其再次转换为之前的任何类型,因此我可以使用.text
来获取<a href>
之间的实际文本,效率很低。我想使用.text
用于获取实际文本的功能,但没有删除<br>
内容的功能。我在env找不到一个名为BeautifulSoup.py
的文件,所以我正在查看GitHub上的BeautifulSoup源代码,并且在那里我找不到def text
,我不知道在哪里可以看到。
更新:
articles = page_soup.find('h2', text='Ads').find_next_siblings('article')
for article in articles:
link = article.find('a')
br = link.find('br')
ad_address = br.previous_sibling.strip() + ', ' + br.next_sibling.strip().partition(', Zone ')[0]
#ad_address = link.br.replace_with(', ').get_text().strip().partition(', Zone ')
您可以用'article.find( '格',{ '类': '地址'})。string' –
这并没有做任何事情,并打印为“无” – dtgq