Scrapy - urlparse.urljoin的行为方式与str.join相同吗？

我试图在Scrapy蜘蛛中使用urlparse.urljoin来编译一个url列表。目前，我的蜘蛛没有返回，但没有发现任何错误。所以我试图检查我是否正确地编译了这些URL。Scrapy - urlparse.urljoin的行为方式与str.join相同吗？

我的尝试是使用str.join在闲置测试，如下图所示：

>>> href = ['lphs.asp?id=598&city=london', 
'lphs.asp?id=480&city=london', 
'lphs.asp?id=1808&city=london', 
'lphs.asp?id=1662&city=london', 
'lphs.asp?id=502&city=london',] 
>>> for x in href: 
    base = "http:/www.url-base.com/destination/" 
    final_url = str.join(base, x) 
    print(final_url)

的返回什么一个行：

lhttp:/www.url-base.com/destination/phttp:/www.url-base.com/destination/hhttp:/www.url-base.com/destination/shttp:/www.url-base.com/destination/.http:/www.url-base.com/destination/ahttp:/www.url-base.com/destination/shttp:/www.url-base.com/destination/phttp:/www.url-base.com/destination/?http:/www.url-base.com/destination/ihttp:/www.url-base.com/destination/dhttp:/www.url-base.com/destination/=http:/www.url-base.com/destination/5http:/www.url-base.com/destination/9http:/www.url-base.com/destination/8http:/www.url-base.com/destination/&http:/www.url-base.com/destination/chttp:/www.url-base.com/destination/ihttp:/www.url-base.com/destination/thttp:/www.url-base.com/destination/yhttp:/www.url-base.com/destination/=http:/www.url-base.com/destination/lhttp:/www.url-base.com/destination/ohttp:/www.url-base.com/destination/nhttp:/www.url-base.com/destination/dhttp:/www.url-base.com/destination/ohttp:/www.url-base.com/destination/n

我认为，从我的例子是很明显，str.join不会以相同的方式表现 - 如果确实如此，那么这就是为什么我的蜘蛛没有遵循这些链接！ - 但是，对此有确认是很好的。

如果这不是正确的测试方法，我该如何测试这个过程？

更新使用以下urlparse.urljoin 尝试：从进口的urllib.parse里urlparse

>>> from urllib.parse import urlparse 
    >>> for x in href: 
     base = "http:/www.url-base.com/destination/" 
     final_url = urlparse.urljoin(base, x) 
     print(final_url)

这是投掷AttributeError: 'function' object has no attribute 'urljoin'

更新 - 相关

def parse_links(self, response): 
    room_links = response.xpath('//form/table/tr/td/table//a[div]/@href').extract() # insert xpath which contains the href for the rooms 
    for link in room_links: 
     base_url = "http://www.example.com/followthrough" 
     final_url = urlparse.urljoin(base_url, link) 
     print(final_url) 
     # This is not joing the final_url right 
     yield Request(final_url, callback=parse_links)

蜘蛛功能

更新

我只是再次测试空闲：

>>> from urllib.parse import urljoin 
>>> from urllib import parse 
>>> room_links = ['lphs.asp?id=562&city=london', 
'lphs.asp?id=1706&city=london', 
'lphs.asp?id=1826&city=london', 
'lphs.asp?id=541&city=london', 
'lphs.asp?id=1672&city=london', 
'lphs.asp?id=509&city=london', 
'lphs.asp?id=428&city=london', 
'lphs.asp?id=614&city=london', 
'lphs.asp?id=336&city=london', 
'lphs.asp?id=412&city=london', 
'lphs.asp?id=611&city=london',] 
>>> for link in room_links: 
    base_url = "http:/www.url-base.com/destination/" 
    final_url = urlparse.urljoin(base_url, link) 
    print(final_url)

其中抛出此：

Traceback (most recent call last): 
    File "<pyshell#34>", line 3, in <module> 
    final_url = urlparse.urljoin(base_url, link) 
AttributeError: 'function' object has no attribute 'urljoin'

来源

2017-10-18 Maverick

如果你的'room_links'正显示出好的东西和'base_url'设置正确，然后那应该没问题......你的蜘蛛的其余部分是怎么样的......是否正确调用了parse_links，它是否真的需要自己产生一个回调？如果有的话 - 如果它开始爬行，它看起来会继续爬行并且不会产生任何数据。您是否有例如定义的'start_requests'或'start_urls'？ –

@JonClements基本URL设置正确，如果我拿它并手动添加相对href它工作。我使用'start_urls'而不是'start_requests'。但是，我不认为该功能正常工作 - 请参阅更新以了解当我在闲置状态下运行时会发生什么情况？ – Maverick

你看，因为这给出的输出：

for x in href: 
    base = "http:/www.url-base.com/destination/" 
    final_url = str.join(base, href) # <-- 'x' instead of 'href' probably intended here 
    print(final_url)

urljoin来自urllib库的行为不同，请参阅文档。这不是简单的字符串连接。

编辑： 基于您的评论，我想你正在使用Python 3.该import语句，您导入urlparse功能。这就是你得到这个错误的原因。无论是进口和直接使用功能：

from urllib.parse import urljoin 
... 
final_url = urljoin(base, x)

或导入parse模块，并使用这样的功能：

from urllib import parse 
... 
final_url = parse.urljoin(base, x)

来源

2017-10-18 07:00:48

是的你是对的，我的意思是'x'那里 - 已经更新了问题和输出。感谢您确认我的怀疑，我如何测试'urlparse.urljoin'-当我尝试在空闲状态下运行时，我得到了'AttributeError：'function'对象没有任何属性'urljoin'' - 我将添加到问题中。 – Maverick

你的'import'看起来像什么，你使用的是什么Python版本？ Python 2和3之间有关于'urllib'库的变化。 –

这是'从urllib.parse导入urlparse' – Maverick

Scrapy - urlparse.urljoin的行为方式与str.join相同吗？

回答

相关问题