2009-10-14 193 views
1

我的大脑泛滥。非常感谢所有昨天已经帮助过的人。 (如果我添加任何东西到昨天的thread,它不会显示最新的问题?)正则表达式 - 排除不需要

也许有人可以尝试再次帮助;这对我来说非常重要:S

<ul> 
<li> 
07.05.2009: 
<a href="#1">Test 1</a> 
</li> 
<li> 
05.01.2009: 
<a href="#2">Test 2</a> 
</li> 
</ul> 

这次我需要读第二部分。最好的情况是,如果我在一个正则表达式中分别得到两个。

所以:

  1. 2009年5月7日
  2. 测试1

我尝试用这个

<li>.*?</li>(.*)</a></li> 

,但我还需要排除所有测试1和测试2之前

+1

那你试试? – Rahul 2009-10-14 07:00:31

+1

您应该包含对昨天问题的交叉引用。 – 2009-10-14 07:05:53

+1

为什么不使用像lxml或ElementTree这样的HTML解析器库? – artagnon 2009-10-14 07:09:18

回答

3

我第二约翰内斯罗塞尔,但我会切掉换行的日期部分的前面加上

<li>[\s]*([^:<]*)[^<]*<a[^>]*>([^<]*) 
+0

哇,真的很好thx!你是用心还是用expresso? – 2009-10-14 08:02:29

+0

我把它们写出来,用Expresso等工具检查它们,并输入多个输入 – Scoregraphic 2009-10-14 08:37:40

+0

不错,真的很让人印象深刻。 – 2009-10-14 09:52:47

2

您可以尝试

<li>([^:<]*)[^<]*<a[^>]*>([^<]*) 
+0

thx也给你! – 2009-10-14 08:08:05

1

尝试

<li>([^>]*)<a[^>]*>([^>]*)</a></li> 
+0

同样给你真正thx! – 2009-10-14 08:03:44