我得到了一些问题,需要帮助..刮内容从网站页面
我的计划:从免费代理 1.获取IP地址(hi去我的屁股) 2.转换为XML
$html = file_get_contents('http://www.hidemyass.com/proxy-list/');
//$body = explode('<tbody>', $html);
$body = $html;
$xml = simplexml_load_string("<?xml version='1.0' encoding='utf-8'?><xml />");
$rows = array();
foreach (array_slice(explode('<td>', end($body)), 1) as $row)
{
preg_match('/span>([0-9])<\/span>/', $row, $ids);
preg_match('/span>([0-9])<\/span>/', $row, $dir);
preg_match('/span>([0-9])<\/span>/', $row, $due);
$node = $xml->addChild('train');
$node->addChild('route', $ids[1]);
$node->addChild('direction', $dir[1]);
$node->addChild('due', $due[1]);
}
header('Content-Type: text/xml');
echo $xml->asXML();
但仍不能...
你能帮助我吗?
感谢 JK
不要使用正则表达式来解析html。 http://stackoverflow.com/a/1732454/118068改用DOM。 – 2012-04-09 18:35:43
waw ...感谢马克的快速反应..我会学习.. – kimpuler 2012-04-09 18:58:50
刚刚添加了一个完整的工作版本 – Baba 2012-04-09 19:31:25