我试图从页面上呈现的顺序或相当接近的顺序获取特定页面的链接。我相信我使用解析请求找到了正确的API调用,但是我注意到我收到了很多我认为是垃圾链接,这些链接确实是链接在引用中完成的。例如,对于阿尔伯特爱因斯坦,我提出了这样的要求(http://en.wikipedia.org/w/api.php?action=parse&format=json&page=Albert%20Einstein&redirects=&prop=links),并且我会得到像E. T. Whittaker和JSTOR这样的参考文献中出现的链接。就我的目的而言,这些参考链接是“垃圾”。Wikipedia API:从分析请求中排除引用
另外,我查看了查询命令,但发现使用prop = link的查询命令最终会给我链接alphabetized,这会丢失我想查看的部分信息。另外,这个API查询还包括来自参考文献中的这些“垃圾”链接。
有无论如何告诉解析命令忽略参考标签内的链接,或者我需要使用API检索文本,然后自己解析客户端?
我也忘了提及,我考虑过使用章节,但据我所知,我没有确定哪些章节是使用API的参考章节的编程方法。 – Nobosi 2013-04-28 05:34:04
不能在获取HTML之后隐藏引用,例如用CSS样式? – Nemo 2015-11-03 21:47:09