我的工作在PHP(这是非常新的我)解析器通过以下源搜索:解析HTML与PHP
http://web2.uconn.edu/wdlcalendar/index.php/month/list/2010-11-02/All/All/UConn_Master_Calendar1/
解析器的目标是存储所需本地机器上的数据库中的信息:我们需要日期(例如11月1日),事件的名称,事件的时间以及指向该特定事件的“更多信息”页面的链接(它嵌入在作为超链接的事件的名称)。
第一部分:我使用getElementsByTagName(“h3”)获取日期,例如11月1日。但是,在HTML文档中,我不想要其他两个元素。
问题:有没有办法告诉解析器关注代码的特定部分或特定的字符串?
第二部分:我遇到的另一个问题是,指向事件页面的链接和代表事件名称的字符串在同一个HTML标记中混合在一起。我如何分别取出这些信息,因为getElementsByTagName()函数(以我的理解)将无法做到这一点。下面是HTML的一部分:
<a class="smoothbox" href="http://web2.uconn.edu/wdlcalendar/index.php/occurrence/57237">
WEAR RED DAY
<em>All Day</em>
</a>
</li>
的想法是,我想有“穿红色DAY”(名称)“全天”(时间)和“http://web2.uconn.edu /wdlcalendar/index.php/occurrence/57237“(链接)作为单独的元素存储在我们的数据库中。怎么样?!
请问您可以告诉我们您正在使用哪个解析器? – texpert 2010-11-03 00:50:05
*(相关)* [解析HTML的最佳方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon 2010-11-03 08:18:47
http://www.codinghorror.com /blog/2009/11/parsing-html-the-cthulhu-way.html – APC 2010-11-04 05:51:53