我正在使用java并试图获取网站的内容,以便我可以分析页面上的文本,但是每当我“获取”响应时服务器,它来自一个登录页面,而不是我正在查看的网站页面。在java中获取网页的实际文本响应
我在所有浏览器上登录了该网站,但我的应用程序无法看到该页面,就好像它是我一样。
我也尝试使用名为“Yandex” - >http://api.yandex.com/rca/ 的API作为解决方法。但是当我从Yandex调用该页面(将获得其内容)时,我只能看到基于返回的登录页面的信息。
任何人都可以给我一个方向去调查吗?我希望能够在我工作的网站的页面上获得一个项目,但似乎不可能。
m_strseedpath = "http://myUrl.com/mypage.html"; //not https
URLConnection connection = new URL("http://rca.yandex.com/?key={MyActualKeyNotThisText}&url=" + m_strSeedUrlPath + "").openConnection();
connection.setRequestProperty("Accept-Charset", "UTF-8");
InputStream response = connection.getInputStream();
StringWriter writer = new StringWriter();
IOUtils.copy(response, writer, "UTF-8");
String strString = writer.toString();
System.out.println(strString);
如果我要将网站cookie与我的请求一起发送,是否可以解决问题?尽管cookie可能是加密的或其他什么 – rockit
我不确定,但你必须亲自尝试一下。 它可能工作。许多浏览器都使用sessionId在浏览器和网站之间进行通信,请尝试使用它。 – Kakarot
所有服务器都看到的是http请求。它不关心谁在发送它。使用fiddler拦截来自浏览器的请求,并使用Java重播。必须工作。 –