我正在写一些代码来加载和解析来自Web的HTML文档。为什么我不能用JDOM加载这个URL?浏览器欺骗?
我用JDOM像这样:
SAXBuilder parser = new SAXBuilder();
Document document = (Document)parser.build("http://www.google.com");
Element rootNode = document.getRootElement();
/* and so on ...*/
它正常工作,这样。但是,当我将URL更改为其他网站时,例如“http://www.kijiji.com”,则parser.build(...)
行会挂起。
任何想法为什么它挂起?我是wondernig,如果它可能是因为kijiji知道我不是一个“真正的”网络浏览器 - 也许我必须欺骗我的http请求,所以它看起来像它来自IE或类似的东西?
任何想法很有用,谢谢!
Rob
处理文档类型的方法是创建常用的永久本地缓存。 –