1
我有一大组HTML文件,其中包含节点span
中杂志的文本。我的PDF到HTML转换器在整个HTML中插入字符实体
。问题是在R中,我使用xmlValue
函数(在XML包中)来提取文本,但是在任何存在
的地方,单词之间的空间被消除。例如:R中的HTML字符实体替换
<span class="ft6">kids, and kids in your community, in DIY projects. </span>
将陆续xmlValue
功能的出来:
"kids,and kids in your community,in DIYprojects."
我在想,最简单的方法来解决,这将是通过xmlValue
运行span
节点之前找到所有
,并用" "
(空格)替换它们。我将如何处理?
这是'' 没有'的方式$ nbsp',所以'GSUB( “ ”,””,测试)'应该工作。 – thelatemail
@thelatemail感谢您发现 - 现在修正了错别字。在正常醒来之前必须避免张贴... – SlowLearner
我试过gsub。问题是xmlValue的输入不是一个字符向量,它是一个“XMLinternalNode”。 gsub需要可转换为字符向量或字符向量的东西,但都不是这样。 –