2010-05-04 132 views
0

我在c#中有这样的代码来从网页中拉链接,并希望使它更智能,因为我希望能够在排除中添加小增加链接基于2个标准。c#和regEx在html页面上拉链接href部分链接

首先我要排除的如指向PDF文件或PPT文件页面发现某些文件扩展......

未来我希望能够排除在URL这样的事情的第一部分链接FTP和images.google ...或maps.google ....及电邮地址...

这是一个需要帮助,我当前的代码:

MatchCollection m1 = Regex.Matches(file, @"(?i)(<A[^>]*href\s*=\s*['""](?!mailto|[^'""]*\.(?:pdf|doc|ppt))[^>]*>.*?</A>)", RegexOptions.Singleline); 

回答