1
我使用以下脚本尝试从HTML转换而来的PDF文件中提取数据。当在XML中使用XML抓取数据时提取“风格”信息R
temp.html <- scan(file=filename,what="character")
pagetree <- htmlTreeParse(temp.html, error=function(...){}, useInternalNodes = TRUE)
tx.raw <- getNodeSet(pagetree,"//div")
的tx.raw
创建一个列表,其中一个如下图所示:
tx[[170]]
[[170]]
<div style="position:absolute;top:985;left:748">
<nobr>
<span class="ft03">
971.72
</span>
</nobr>
</div>
我需要的信息在里面span
(即971.72
),但我还需要style
在div
让我知道span
中的数据片段是位于pdf文件中的。我怎样才能提取样式信息呢?谢谢。