2013-03-22 70 views
0

我使用硒来收集Web门户上的数据。这里的问题是数据是XML格式,但URL扩展名不是.xml,因此它显示为.aspx,因为它是一个点净website.Now使用硒我可以用driver.getPageSource()使用硒保存页面内容

获得页面的源代码,但它给我的格式HTML.Separating的XML这里使用HTML是一个真正的痛苦,我已经尝试了许多选项,如JSoup,但它似乎有太多的解析要完成。

是否有任何其他方式来使硒操纵浏览器。我可以看到,文件保存为我提供了一个选项来保存网页的XML格式。如何在硒中做到这一点?是否有任何其他的API可以帮助我在这里。

编辑:我的浏览器是Internet Explorer

回答

1

你试过这样吗?

String pageSource=driver.findElement(By.tagName("body")).getText(); 

看到这个pageSource内容如果只给XML的内容,你可以把它写使用文件操作文件。

+0

它没有工作。没有内容显示在字符串上。感谢您的输入,尽管尝试与其他元素,并回来。 – Madusudanan 2013-03-22 14:16:39

+0

问题是什么?如果这是html页面它将没有html标签的那个页面的内容。你可以在这里发布你的网址吗? – Santoshsarma 2013-03-22 14:38:20

+0

我不知道是什么问题,没有内容获取存储在字符串中。不过有一些限制,我不能在这里发布URL。 – Madusudanan 2013-03-25 05:32:52