2014-02-07 30 views
-4

我需要的脚本从这一部分的HTML代码是网页标题的所有值上出现多次来定义的Web地址,然后exctract。这是从网站只是一个例子:PHP脚本可以从多个title =某些网站的值中提取文本?

<td><a title="Articlesiteslist.com Analysis" href="http://www.statscrop.com/www/articlesiteslist.com"><img src="http://static.statscrop.com/favicons.png" class="data_original img_icon" data-original="http://s2.googleusercontent.com/s2/favicons?domain_url=articlesiteslist.com" width="16" height="16" alt="articlesiteslist.com" title="articlesiteslist.com"> articlesiteslist.com</a></td> 

明天

从此我只需要标题,所以从标题=“榜样”唯一的例子价值应该出来。

非常感谢帮助,现在试图解决这个问题了两天。

+1

负载与PHP的内置DOM解析器,并做HTML:'的foreach($ dom->的getElementsByTagName( 'A')为$标签){ 回声$ tag-> getAttribute('title'),'
'; }'。 –

+0

如何做到这一点?整个剧本将如何看起来比?对不起,我几乎不知道有关PHP的任何信息。开幕和结束标记不匹配 – user3281831

回答

0

扩大阿迈勒穆拉利的你需要做以下的想法。

例如你要加载一些 “a.html” 文件:

<html> 
<body> 
Lorem ipsum dolor 
<a title="Ravellavegas.com Analysis" href="http://somewebsite.com/" /> 
sit amet, consectetur adipisicing elit, sed do eiusmod tempor 
<a title="Articlesiteslist.com Analysis" href="http://someanotherwebsite.com/" /> 
incididunt ut labore et dolore magna aliqua. 
</body> 
</html> 

然后,您必须编写脚本如下:

<?php 

$dom = new DOMDocument(); 
$dom->load('a.html'); 

foreach ($dom->getElementsByTagName('a') as $tag) { 
    echo $tag->getAttribute('title').'<br/>'; 
} 

?> 

此输出:

Ravellavegas.com Analysis 
Articlesiteslist.com Analysis 

变#2

<?php 
$text = <<<EOT 
<html> 
<body> 
Lorem ipsum dolor 
<a title="Ravellavegas.com Analysis" href="http://somewebsite.com/" /> 
sit amet, consectetur adipisicing elit, sed do eiusmod tempor 
<a title="Articlesiteslist.com Analysis" href="http://someanotherwebsite.com/" /> 
incididunt ut labore et dolore magna aliqua. 
</body> 
</html> 
EOT; 

preg_match_all('/title=".*?"/is', $text, $matches); 
foreach($matches[0] as $m) 
{ 
    $m = str_replace('title="', "", $m); 
    $m = str_replace('"', '', $m); 
    echo htmlentities($m)."<br />"; 
} 
?> 

这仍然输出:

Ravellavegas.com Analysis 
Articlesiteslist.com Analysis 
+0

我想这个脚本时出现此错误。然后检查我的“变体#2”。 – user3281831

+0

这意味着文件试图加载似乎不会有一个有效的结构: –

相关问题