0
我使用urllib2来拉取网页的html内容。我的计划是遍历页面底部提供的页码(分页)。但是,页面底部的每个页面列表的链接都是通过href标记中的超链接提供的。例如,到每个页码的相应网页的链接是与'#'符号相关联的链接(即,右键点击'#'并在新标签中打开链接导致页面):如何使用urllib2从html中提取超链接的hrefs
<li class="currentPage">3</li>
<li><a class = "_pageNo" href='#'>4</a></li>
<li><a class = "_pageNo" href='#'>5</a></li>
<li><a class = "_pageNo" href='#'>6</a></li>
当我拉内容时,'#'被检索为字符而不是它们的基础链接。有什么想法吗?
你是否想从链接中获得'[“4”,“5”,“6”]或者你想关注它们?可能会有一个JavaScript正在执行。 – 2014-10-27 00:12:20
我正在寻找与每个'#'相关的超链接。例如,在查看源代码时,如果右键单击以下行中的'#':
所以,你需要的是获得“4”或“5”或“6”,并将链接与信息,你会发现在页面上。 – 2014-10-27 00:18:15