2015-10-11 38 views
1

我使用机械化浏览网站。在此之后,我使用beautifulsoup来操作网页的内容(转换为unicode,删除一些行)。现在我想从Beautifulsoup获得的html源文件创建PDF文件。 Iuse pdfkit,它的文本工作正常。但现在我想创建PDF格式的图片,这些图片在html代码中。通过使用相对路径'../../'等来指定URL(也用于图片)等。Python - Beautifulsoup与PDF图片(相对路径)

如何更改所有考虑绝对路径的URL以及如何获取pdf文件中的图片?将获得照片足够的路径的变化?

SOLUTION:(基于dudu1791提案)

#changement liens vers images 
def ChangeLinkIMG(soup,baseurl): 
    #parcours des images 
    for imgLK in soup.findAll('img'):  
     #chemin relatif image 
     try: 
      relaIMG=imgLK['src'] 
      #creation lien absolu 
      absoIMG=urljoin(baseurl,relaIMG) 
      imgLK['src']=absoIMG 
      print absoIMG 
     except: 
      pass 
    return soup 

回答

2

它大概一半的答案,但下面的代码可以帮助你打开网址为考虑绝对路径。这是我做到的。

def parse_all_links(self, soup):    
     for link in soup.find_all('a'):     
      if(link.get('href')): 
       href = link.get('href') 
       if href.startswith('http') or href.startswith('https'): 
        print(href)       
       elif href =='#': 
        #print('No link present') 
        pass 
       elif href =='/': 
        pass 
       else: 
        href = baseurl + href 
        print(href) 
+0

谢谢!我修改了处理图片的提议。我在我的帖子中写了我的功能。 – Guuk