2014-02-27 45 views
0

这是我的第一篇文章,所以如果我的问题太模糊或不清楚,请告诉我。 我试图为一个研究项目的新闻文章刮网站。但是该网页上修改过的搜索的链接将不起作用,因为Intranet身份验证会吐出一个错误。 所以我的想法是,我填写搜索表单并使用生成的链接来刮取网站。 既然我的老板喜欢和R一起工作,他会希望我写一个R-skript来这样做,但我不知道如何和没有找到任何工作。填写在网站上搜索和屏幕刮r结果

回答

0

您需要两个包:RCurlXMLRCurl包用于浏览互联网。它可以使用_GET或_PUT参数访问HTML表单。因此,您可以登录或填写任何表格。

服务器的输出将使用HTML。如果你想grep的链接,你可以使用XLM包。我帮助获取任何数据格式的XML格式。

但是在开始之前,您必须找出那是网页中的搜索表单(并且应该使用参数)。 Firefox浏览器可能很有用。您需要两个加载项:Live HTTP标头和Firebug。使用这些加载项,您可以更轻松地检查网页。

我知道它没有解决你的问题,但我不能再说了,因为它加深了特定的情况和网页结构。我相信我提到的工具足够实现你想要的。

打赌问候。