我想从以下URL中将最高法院法官表加载到R中。 https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States从维基百科加载表到R
我使用以下代码:
scotusURL <- "https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States"
scotusData <- getURL(scotusURL, ssl.verifypeer = FALSE)
scotusDoc <- htmlParse(scotusData)
scotusData <- scotusDoc['//table[@class="wikitable"]']
scotusTable <- readHTMLTable(scotusData[[1]], stringsAsFactors = FALSE)
ř返回scotusTable为NULL。这里的目标是在R中获得一个data.frame,我可以用它来构建一个在法庭上享有SCOTUS正义任期的ggplot。我以前有过这样的脚本来制作一个很棒的情节,但是最近的决定在页面上发生了一些变化,现在脚本无法运行。我通过维基百科上的HTML尝试查找任何更改,但是我不是webdev,因此任何会破坏我的脚本的内容都不会立即显现。
此外,R中是否有一个方法可以缓存来自此页面的数据,因此我并不是经常引用该URL?这似乎是今后避免这个问题的理想方式。 欣赏帮助。
另外,SCOTUS在我的正在进行的业余爱好/副项目中,所以如果还有其他的数据源比维基百科更好的话,那么我就是耳熟能详。
编辑:对不起,我应该列出我的依赖。我正在使用XML,plyr,RCurl,data.table和ggplot2库。
什么是'getURL'函数的源代码? – Frash
http://stackoverflow.com/questions/27843659/scraping-a-complex-html-table-into-a-data-frame-in-r – Khashaa
关于你的问题,你可以考虑在开放的数据堆栈交换站点上询问。 – Frank