我正在研究R中一个Atom feed的scraper,并且有问题获取每篇文章的链接。这里是我的代码:R将原子馈给数据帧
url <- "http://www.stwnewspress.com/search/?mode=article&q=&nsa=eedition&t=article&l=1000&s=&sd=desc&f=atom&d=&d1=&d2="
pageSource <- getURL(url, encoding = "UTF-8")
parsed <- htmlParse(pageSource)
titles <- xpathSApply(parsed, '//entry/title', xmlValue)
authors <- xpathSApply(parsed, '//entry/author', xmlValue)
links <- xpathSApply(parsed, '//entry/link/@href')
dataFrame <- data.frame(pubDates, titles, authors)
我的问题是我捡到18个标题,18个作者和20个链接。我想我正在从Feed页面中挑选前两个链接,但我不知道如何停止接收它们。
感谢您的帮助!
你可以尝试使用[R是RSS](https://github.com/noahhl/r-does-rss)以及ad @ jdharrison的回答 – hrbrmstr 2014-10-08 15:39:30