2017-01-20 30 views
1

我有一个自我生成的HTML文件(在本地目录)的所有身体上一行:PowerShell的:拆分HTML

<html><head><META http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>server - path</title></head><body><H1>server - path</H1><hr> 

<pre><A HREF="/logs/folder/">[To Parent Directory]</A><br><br>   jeudi 5 janvier 2017 19:38  116483 <A HREF="/folder/file1.csv">file1.csv</A><br>   jeudi 5 janvier 2017 19:39  138397 <A HREF="/folder/file2.csv">file2.csv</A></A><br></pre><hr></body></html> 

,我需要提取的文件和日期的名称。 我成功阅读了正确的文字。但我被阻止在<br>上划分线路。

我尝试这样:

$string = "first line<br>second line <br> third line<br> end<br>" 
write-host $string 
$separator = "<br>" 
$option = [System.StringSplitOptions]::RemoveEmptyEntries 
$string.Split($separator, $option) 

但我对于结果:

first line<br>second line <br> third line<br> end<br> 
fi 
st line 
second line 
thi 
d line 
end 

我看到HTML敏捷性包,但对我来说,我没有任何标签在我的页面。

你有什么建议吗? 谢谢!

+0

这个职位似乎是回答你的问题: http://stackoverflow.com/questions/16435240 /如何对分割串逐串合的powershell – c3st7n

回答

2

String.Split() method需要你的字符串<br>,并把它当作一个[char]阵列,分裂对任何<br>每一个发生。

使用基于正则表达式,-split操盘手:

PS C:\> $String -split $separator |Where-Object {$_} 
first line 
second line 
third line 
end 

Where-Object {$_}管道元件会过滤掉空字符串