我正在尝试编写一个Python脚本来检索文章是否有作者。Python - 检索文章是否有作者
我写了下面:
s = "https://www.nytimes.com/2017/08/18/us/politics/steve-bannon-trump-white-house.html?hp&action=click&pgtype=Homepage&clickSource=story-heading&module=a-lede-package-region®ion=top-news&WT.nav=top-news"
def checkForAuthor():
r = requests.get(s)
return "By" in r.text
print(checkForAuthor())
的问题是,函数返回checkForAuthor
即使true
时,有没有作者,因为它搜索单词整个HTML内容。 找到作者而不搜索整个文档有更好的逻辑吗?比如在标题内搜索,所以我甚至不需要搜索文章内容。我确实需要制作这个通用的搜索引擎,以便我搜索到的任何网站都能给出结果。不确定那里有什么东西。
你应该有一些适当的库解析HTML和检查只有标签哟你对此感兴趣。 –