1
我想要的丰富网页摘要数据应用到我的网页,下面http://schema.org/Article
标准。其中一个属性是articleBody
,我期望应该包括构成文章的整个文本。如何从丰富的片段元素中排除内容?
不幸的是,该文章的HTML表示会偶尔出现按钮,广告和其他提示,其文本不应进入articleBody
。
例如:
<div itemscope itemtype="http://schema.org/Article">
<div itemtype="articleBody">
<p>1st Paragraph</p>
<p>2nd paragraph</p>
<a>A few useful links for my users</a>
<p>3rd paragraph</p>
<div>A few text ads</div>
<p>4th paragraph</p>
</div>
</div>
有没有办法排除从文章本身的广告/链接文本?
请注意,您有一个错误在你的代码:'项目类型= “articleBody”'应该是' itemprop = “articleBody”'。 – unor