2011-10-10 16 views
1

我从我的博客拉动rss提要,但是我希望删除wordpress添加到我的图像末尾的查询字符串。正则表达式删除/替换查询字符串RSS提要内容块

到目前为止,我尝试了一些正则表达式,但到目前为止还没有能够拿出一个从rss提要的cdata部分的内容块中删除?w=400&h=222

任何想法家伙?

感谢

[编辑]

饲料的CDATA部分看起来是这样的:

<![CDATA[ 
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis nec ullamcorper massa. Fusce in nibh nulla, id viverra mi. Aliquam consectetur, nisl eget mattis porta, lorem felis lacinia orci, non malesuada lacus nibh sed dui. Praesent blandit erat id tortor fringilla commodo suscipit urna ultricies. Proin facilisis rutrum ligula ac venenatis.</p> 
<div id="attachment_2255" class="wp-caption alignnone"><img src="http://myBlog.files.wordpress.com/2011/10/image.jpg?w=400&#038;h=222" alt="Image" class="size-full wp-image-2255" /><p class="wp-caption-text">Lorem ipsum dolor sit amet, consectetur adipiscing elit.</p></div> 
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis nec ullamcorper massa. Fusce in nibh nulla, id viverra mi. Aliquam consectetur, nisl eget mattis porta, lorem felis lacinia orci, non malesuada lacus nibh sed dui. Praesent blandit erat id tortor fringilla commodo suscipit urna ultricies. Proin facilisis rutrum ligula ac venenatis.</p>]]> 
+1

请提供输入信息,以便我们为您提供帮助。我不知道rss的cdata部分是什么样的。 – FailedDev

+0

你正在走下一条非常危险的道路。一般来说,用正则表达式解析XML是不可能的。你可以解析*特定的东西,但正如你所看到的,即使这个简单的例子,你也必须考虑奇怪的编码规则。使用HTML解析器执行此操作会更好。请参阅http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454。 –

回答

1

没有测试,但是这将是我第一次尝试......

\?w=[0-9]+&h=[0-9]+ 

编辑:编辑后,我看到输入数据已经改变。矿山的答案是基于找到一个匹配?W = 400 & H = 222

&#038;是一个符号的转义序列。如果第一个不起作用,请尝试以下操作...

\?w=[0-9]+&#038;h=[0-9]+