使用硒保存页面内容

我使用硒来收集Web门户上的数据。这里的问题是数据是XML格式，但URL扩展名不是.xml，因此它显示为.aspx，因为它是一个点净website.Now使用硒我可以用driver.getPageSource()使用硒保存页面内容

获得页面的源代码，但它给我的格式HTML.Separating的XML这里使用HTML是一个真正的痛苦，我已经尝试了许多选项，如JSoup，但它似乎有太多的解析要完成。

是否有任何其他方式来使硒操纵浏览器。我可以看到，文件保存为我提供了一个选项来保存网页的XML格式。如何在硒中做到这一点？是否有任何其他的API可以帮助我在这里。

编辑：我的浏览器是Internet Explorer

你试过这样吗？

String pageSource=driver.findElement(By.tagName("body")).getText();

看到这个pageSource内容如果只给XML的内容，你可以把它写使用文件操作文件。

2013-03-22 12:54:14 Santoshsarma

它没有工作。没有内容显示在字符串上。感谢您的输入，尽管尝试与其他元素，并回来。 – Madusudanan 2013-03-22 14:16:39

问题是什么？如果这是html页面它将没有html标签的那个页面的内容。你可以在这里发布你的网址吗？ – Santoshsarma 2013-03-22 14:38:20

我不知道是什么问题，没有内容获取存储在字符串中。不过有一些限制，我不能在这里发布URL。 – Madusudanan 2013-03-25 05:32:52

回答