我正在尝试使用crawler4j下载一些网站。我唯一的问题是,即使我对shouldVisit
函数中的所有.js
文件返回true,它们也不会被下载。使用crawler4j下载js文件
@Override
public boolean shouldVisit(WebURL url) {
return true;
}
@Override
public void visit(Page page) {
String url = page.getWebURL().getURL();
System.out.println("URL: " + url);
}
.js
文件的URL永远不会打印出来。
@JulienS发布答案时,我使用完全相同的方法来提取.js文件。 (使用JSoup)。不过,我认为也许修改源代码会有所帮助。我可以分享代码,但它太简单了。 –