您应该尝试检查所需数据的HTML代码,尝试在作者姓名的HTML代码中查找,源代码中的简单Ctrl+F: Hans
将执行此操作。你会看到,在第一时间"Hans"
可以在源代码中发现在这段代码:
<div class="js-article"
data-page-title="Miljöpartiet vill få med miljardsatsning på skolor redan i höstbudgeten - DN.SE"
data-article-url="/nyheter/sverige/mp-vill-snabba-pa-miljardsatsning-pa-svaga-skolor/"
data-authors="Hans Rosén"
data-section-display-name="Sverige"
data-article-friendly-id="dn.epi.1739446"
data-article-title="MP vill snabba på miljardsatsning på svaga skolor"
data-article-publish-date="2017-05-11"
data-article-publish-time="19:53"
data-is-premium="true"
data-access-level="Limited"
data-is-standalone="false"
data-article-main-section="nyheter"
data-article-sub-section="sverige">
注意文章的日期和冠军已经在这段代码。转入下一个是学习Python代码来提取这片从网站的信息,我们就可以开始:
import requests
from bs4 import BeautifulSoup
r = requests.get("http://www.dn.se/nyheter/sverige/mp-vill-snabba-pa-miljardsatsning-pa-svaga-skolor/")
data = r.text
soup = BeautifulSoup(data, 'html.parser')
article_data = soup.find("div", class_="js-article")
现在我们可以做到这一点,以提取精确的数据:
title = article_data["data-article-title"]
date = article_data["data-article-publish-date"]
time = article_data["data-article-publish-time"]
author = article_data["data-authors"]
尝试使用类似的方法来提取物品的整个身体,你会看到身体内div class="article__body-content"
源代码,并提取我们可以简单地使用soup.find()
:
article_body = soup.find("div", class_="article__body-content")
谢谢,这正是我需要开始的!并为快速回复。 – Lamar
答案要好得多。请注意,您的帖子可能会被删除。这不是一个正在寻找解决方案的问题。您正在寻找某人为自己做,并且可以重复使用。 因此,这个问题太宽泛(不具体也没有帮助)给你。 学习Python和BeautifulSoup会更好,有很多Youtube视频,非常有帮助。请回来一个更具体的问题, –
@FaultyFuse准确地说,我想到了标记问题,但我试图解释如何解析HTML,因为他不知道在代码中寻找他想要的数据的位置。 –