Python - Beautifulsoup与PDF图片（相对路径）

我使用机械化浏览网站。在此之后，我使用beautifulsoup来操作网页的内容（转换为unicode，删除一些行）。现在我想从Beautifulsoup获得的html源文件创建PDF文件。 Iuse pdfkit，它的文本工作正常。但现在我想创建PDF格式的图片，这些图片在html代码中。通过使用相对路径'../../'等来指定URL（也用于图片）等。Python - Beautifulsoup与PDF图片（相对路径）

如何更改所有考虑绝对路径的URL以及如何获取pdf文件中的图片？将获得照片足够的路径的变化？

SOLUTION：（基于dudu1791提案）

#changement liens vers images 
def ChangeLinkIMG(soup,baseurl): 
    #parcours des images 
    for imgLK in soup.findAll('img'):  
     #chemin relatif image 
     try: 
      relaIMG=imgLK['src'] 
      #creation lien absolu 
      absoIMG=urljoin(baseurl,relaIMG) 
      imgLK['src']=absoIMG 
      print absoIMG 
     except: 
      pass 
    return soup

来源

2015-10-11 Guuk

它大概一半的答案，但下面的代码可以帮助你打开网址为考虑绝对路径。这是我做到的。

def parse_all_links(self, soup):    
     for link in soup.find_all('a'):     
      if(link.get('href')): 
       href = link.get('href') 
       if href.startswith('http') or href.startswith('https'): 
        print(href)       
       elif href =='#': 
        #print('No link present') 
        pass 
       elif href =='/': 
        pass 
       else: 
        href = baseurl + href 
        print(href)

来源

2015-10-11 19:06:39 dudu1791

谢谢！我修改了处理图片的提议。我在我的帖子中写了我的功能。 – Guuk

Python - Beautifulsoup与PDF图片（相对路径）

回答

相关问题