2017-02-24 63 views
1

我正在收集PubMed中搜索术语的作者信息和文章信息。我在rentrez包中使用entrez_fetch成功获得作者姓名,出版年份和其他信息。以下是我的示例代码:PubMed使用entrez_fetch进行XML解析rentrez

library(rentrez) 
library(XML) 

pubmedSearch <- entrez_search("pubmed", term = "flexible ureteroscope", retmax = 100) 
SearchResults <- entrez_fetch(db="pubmed", pubmedSearch$ids, rettype="xml", parsed=TRUE) 
First_Name <- xpathSApply(SearchResults, "//Author", function(x) {xmlValue(x[["ForeName"]])}) 
Last_Name <- xpathSApply(SearchResults, "//Author", function(x) {xmlValue(x[["LastName"]])}) 
PubYear <- xpathSApply(SearchResults, "//PubDate", function(x) {xmlValue(x[["Year"]])}) 
PMID <- xpathSApply(SearchResults, "//ArticleIdList", function(x) {xmlValue(x[["ArticleId"]])}) 

尽管获得了我需要的所有信息,但我在确定哪些作者是哪个PMID时遇到问题。这是因为每个PMID的作者长度不同。例如,如果我在我的代码中分析了100篇文章的作者信息,我得到了超过100个作者的名字,我无法将其与相应的PMID相关联。总的来说,我想有一个输出数据帧是这样的:

PMID  First_Name Last_Name   PubYear 
28221147 Carlos  Torrecilla Ortiz 2017 
28221147 Sergi  Colom Feixas  2017 
28208536 Dean G  Assimos    2017 
28203551 Chad M  Gridley    2017 
28203551 Bodo E  Knudsen    2017 

于是就这样,我就知道这是作者在关联与PMID并作进一步的分析是有用的。

只是为了说明,这是我的代码的一个小例子。我正在收集更多信息,使用XML解析通过entrez_fetchrentrez包中。

这个问题真的让我感到困扰,我非常感谢任何帮助或指导。感谢您提前做出的努力和帮助。

回答

2

这实际上是一个关于xpath(用于指定XML文件中这些节点的语言)的问题,我并不认为它是专家。但我认为我可以帮助在这种情况下。

您想要确保一次提取一个公开记录(PubmedArticle条目)的信息。你可以写,做,对于一个记录

parse_paper <- function(paper){ 
    last_names <- xpathSApply(paper, ".//Author/LastName", xmlValue) 
    first_names <- xpathSApply(paper, ".//Author/ForeName", xmlValue) 
    pmid <- xpathSApply(paper, ".//ArticleId[@IdType='pubmed']", xmlValue) 
    data.frame(pmid=pmid, last_names=last_names, first_names=first_names) 
} 

这应该给你每位作者的一排,每排相同PMID功能。我们现在可以通过在每篇文章上调用该函数将其扩展到整篇文章。

parse_multiple_papers <- function(papers){ 
    res <- xpathApply(papers, "/PubmedArticleSet/*", parse_paper) 
    do.call(rbind.data.frame, res) 
} 

head(parse_multiple_papers(SearchResults)) 

 pmid  last_names first_names 
1 28221147 Torrecilla Ortiz  Carlos 
2 28221147  Colom Feixas  Sergi 
3 28208536   Assimos  Dean G 
4 28203551   Gridley  Chad M 
5 28203551   Knudsen  Bodo E 
6 28101159    Li Zhi-Gang 

BTW,我通常不搜索计算器,但会回答有关rentrez提交截至github repo问题的任何问题(他们不一定是“错误”去那里)。