6
A
回答
14
我建议你考虑simple_html_dom。它会使它变得非常简单。
下面是如何拉标题和第一图像的工作示例。
<?php
require 'simple_html_dom.php';
$html = file_get_html('http://www.google.com/');
$title = $html->find('title', 0);
$image = $html->find('img', 0);
echo $title->plaintext."<br>\n";
echo $image->src;
?>
这是另一个没有外部库的例子。我应该注意到,在HTML上使用正则表达式不是一个好主意。
<?php
$data = file_get_contents('http://www.google.com/');
preg_match('/<title>([^<]+)<\/title>/i', $data, $matches);
$title = $matches[1];
preg_match('/<img[^>]*src=[\'"]([^\'"]+)[\'"][^>]*>/i', $data, $matches);
$img = $matches[1];
echo $title."<br>\n";
echo $img;
?>
+0
谢谢你的回答。我想我会坚持简单的HTML Dom解析器库,然后,每个人都在推荐它 – federicot 2012-03-21 22:13:43
2
您可以使用SimpleHtmlDom这样做的正确方法。然后查找标题和img标签或您需要做的其他事情。
+1
我曾经使用过的最好的第三方库之一。高度推荐它。 – cchana 2012-03-21 21:56:00
相关问题
- 1. PHP网页抓取
- 2. 在PHP中抓取网页的照片
- 3. PHP Laravel网页抓取get_meta_tags
- 4. DOMDocument PHP网页抓取
- 5. 在python中抓取网页
- 6. 在Delphi中抓取网页
- 7. 在iOS中抓取网页
- 8. python3中的网页抓取
- 9. 在R的网页抓取
- 10. Beautifulsoup网页抓取
- 11. BeautifulSoup网页抓取
- 12. Spyder - 网页抓取
- 13. PHP网络抓取HTMLDOM分页
- 14. php curl从网页抓取图片
- 15. PHP curl网页抓取突然失败
- 16. 网页抓取/屏幕抓取
- 17. 网页抓取/抓取的资源
- 18. 网页抓取/抓取基于GWT的网页
- 19. 在Python/R中的网页抓取javascript
- 20. r在网页中抓取(带循环)
- 21. 在VBA和Excel中抓取网页
- 22. 使用JSoup网页抓取网页
- 23. 从抓取的网页中提取值
- 24. 使用vba抓取网页
- 25. 蟒蛇网页抓取
- 26. 从网页抓取文本
- 27. 刮屏|网页抓取
- 28. Python - 网页抓取问题
- 29. 优化网页抓取
- 30. 网页抓取性能
是的。有。你用Google吗?你有没有尝试过任何东西? – 2012-03-21 21:41:43
是的,我不会问这里,如果我没有 – federicot 2012-03-21 21:43:27
所以...你试过了什么? – 2012-03-21 21:44:30