我想编写一个脚本来获取主页的链接到社交媒体(主要是twitter/facebook),而且我完全陷入僵局,因为我对Python很新。使用python获取网站主页的链接
我想要完成的任务是解析网站,找到社交媒体链接,并将其保存在新的数据框中,其中每列包含原始URL,Twitter链接和Facebook链接。这里是我到目前为止此代码为纽约时报网站:
from bs4 import BeautifulSoup
import requests
url = "http://www.nytimes.com"
r = requests.get(url)
sm_sites = ['twitter.com','facebook.com']
soup = BeautifulSoup(r.content, 'html5lib')
all_links = soup.find_all('a', href = True)
for site in sm_sites:
if all(site in sm_sites for link in all_links):
print(site)
else:
print('no link')
我有一些问题了解什么环路是干什么的,或如何使之成为什么,我需要它的工作。我也试图存储网站,而不是做print(site)
,但那不起作用......所以我想我会寻求帮助。在问之前,我在这里经历了一系列的反应,但没有人能让我做我需要做的事情。
您的'if'语句没有任何用处。它检查列表“sm_sites”中的每个元素是否在lsit“sm_sites”中,这显然总是真实的并且完全不相关。你想要什么条件来检查? – jacoblaw
@jacoblaw我想写一些让我检查'sm_sites'中的每个网站是否都在'all_links'中的东西。然后,我想要完成额外的步骤(并且不知道如何将其写入python),我想将它们的twitter和facebook的完整链接存储为熊猫DF中的列。理想情况下,我希望这些代码能够为几个网站做这些事情(但是,我认为这是循环的目的,所以我可以围绕这个来编写一个循环)。 – rowbust