2010-08-28 84 views
3

解析字符串我已经打开使用PHP:从HTML

file_get_contents('http://www.example.com/file.html') 

,并希望解析线包括 “ParseThis” 一个HTML文件:

<h1 class=\"header\">ParseThis<\/h1> 

正如你可以看到,这是一个h1内标记(文件中的第一个h1标记)。我如何获得文本“ParseThis”?

回答

5

您可以使用DOM这一点。

// Load remote file, supress parse errors 
libxml_use_internal_errors(TRUE); 
$dom = new DOMDocument; 
$dom->loadHTMLFile('http://www.example.com/file.html'); 
libxml_clear_errors(); 

// use XPath to find all nodes with a class attribute of header 
$xp = new DOMXpath($dom); 
$nodes = $xp->query('//h1[@class="header"]'); 

// output first item's content 
echo $nodes->item(0)->nodeValue; 

另见

标记此CW,因为我已经回答过这一点,但我懒得找重复

4

使用此功能。

<?php 
function get_string_between($string, $start, $end) 
{ 
    $string = " ".$string; 
    $ini = strpos($string,$start); 
    if ($ini == 0) 
     return ""; 
    $ini += strlen($start); 
    $len = strpos($string,$end,$ini) - $ini; 
    return substr($string,$ini,$len); 
} 

$data = file_get_contents('http://www.example.com/file.html'); 

echo get_string_between($data, '<h1 class=\"header\">', '<\/h1>'); 
+0

它可能适用于此ca se,但您应该使用DOM选择器或XML导航。 – Incognito 2010-08-28 17:21:41

+0

我更喜欢这个,因为它比DOM更快,当有这样的非常简单的需求时,我使用我的'get_string_between' :) – shamittomar 2010-08-28 17:27:40

+0

+1用它来获得最佳的跟随者数量。 – 2013-03-19 23:29:51