1
我想放弃的网站:报废文章与Python 3.4和BeautifulSoup,请
https://xueqiu.com/yaodewang
而且我想放弃他的所有文章。我使用BeautifulSoup和采购这样的:
import requests
from bs4 import BeautifulSoup
url = 'https://xueqiu.com/yaodewang'
header = {'user-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36'}
r = requests.get(url,headers = header).content
soup = BeautifulSoup(r,'lxml')
artile = soup.find_all('ul',{'class':'status-list'})
print(artile)
结果是什么这是回报!
[]
SO,我TYR另一个规则是这样的:
# art = soup.find_all('div',{'class':'allStatuses no-head'})
# art = soup.find_all('div',{'class':'status_bd'})
# art = soup.find_all('div',{'class':'status_content container active tab-pane'})
我需要你的帮助,非常感谢!
非常感谢你much.It是一个正确的methlod但是,我想知道,如果我知道conten! t位于脚本中,我如何找到这样的正则表达式:pattern = re.compile(r“SNB \ .data \ .statuses =({。*?});”,re.MULTILINE | re.DOTALL) –
另一个问题:我想获得artiles的列表,但现在,我得到了一个字符串。我想得到这样的结果= [str01,str02 .....] –
@championCh当然,只是提取脚本文本并使用它,例如[regex101](https://regex101.com/)。至于你的第二个问题,我认为你是在询问如何将结果放入一个列表中:'articles = [item [“description”] for data in data [“statuses”]]]'。希望有所帮助。 – alecxe