如何确定一个html标签是否分割成多行

我在写一个涉及到抓取网页的php脚本。目前，该脚本分析了线的页面线，但它通过删除所有换行符打破，如果有跨多行标签，像如何确定一个html标签是否分割成多行

<img src="example.jpg" 
alt="example">

如果糟糕来糟糕的是，我可能预处理网页，然后将它们重新插入最接近的>，但这看起来像是一团糟。

理想情况下，我将能够检测跨线的标记，只将这些标记与线结合，然后继续处理。
那么检测这个最好的方法是什么？

来源

2008-08-29 Factor Mystic

也许对于未来的项目我会使用一个解析库，但是这只是一个问题。这是我目前的解决方案。 rstrpos是strpos，但是从相反的方向。使用示例：

for($i=0; $i<count($lines); $i++) 
{ 
    $line = handle_mulitline_tags(&$i, $line, $lines); 
}

及这里的实现：

function rstrpos($string, $charToFind, $relativePos) 
{ 
    $searchPos = $relativePos; 
    $searchChar = ''; 

    while (($searchChar != $charToFind)&&($searchPos>-1)) 
    { 
     $newPos = $searchPos-1; 
     $searchChar = substr($string,$newPos,strlen($charToFind)); 
     $searchPos = $newPos; 
    } 

    if (!empty($searchChar)) 
    { 
     return $searchPos; 
     return TRUE; 
    } 
    else 
    { 
     return FALSE; 
    } 
} 

function handle_multiline_tags(&$i, $line, $lines) 
{ 
    //if a tag is opened but not closed before a line break, 

    $open = rstrpos($line, '<', strlen($line)); 
    $close = rstrpos($line, '>', strlen($line)); 
    if(($open > $close)&&($open > -1)&&($close > -1)) 
    { 
     $i++; 
     return trim($line).trim(handle_multiline_tags(&$i, $lines[$i], $lines)); 
    } 
    else 
    { 
     return trim($line); 
    } 
}

这很可能以某种方式得到优化，但对于我而言，这是不够的。

来源

2008-08-29 16:20:57