webharvest

    0热度

    1回答

    我想通过以下x查询代码查询webpage。请帮帮我。 它给了我以下错误: XPST0003:#...中的XQuery语法错误... // json //句// // trans);让#: 预计“返回”,找到“;”。 <?xml version="1.0" encoding="UTF-8"?> <config charset="UTF-8"> <var-def name="scrappedCon

    1热度

    1回答

    我希望有人能指出我的(可能是愚蠢的)这个脚本的问题。我试图抓取一个网站来获取网站上的帖子,并将其加载到XML文档中。我试图结合几个示例脚本 - 爬虫和nytimes示例。 该脚本运行时没有错误,但只有<edublogs date="02.10.2015"></edublogs>标签被导出。 在此先感谢您的帮助。 <?xml version="1.0" encoding="UTF-8"?> <c

    0热度

    2回答

    有没有什么方法可以从Web Harvest的子链接收集数据? 下面是一个XML段我用: <loop item="item" index="i"> <list><var name="products"/></list> <body> <xquery> <xq-param name="item"><var name="item"/></xq

    1热度

    1回答

    我正在使用WebHarvest工具从几个网站中剔除网络数据。我已经通过了这些例子,但无法找到在网站中进行身份验证的方法,然后从中剔除数据。任何人都可以引用示例配置来实现通过身份验证的Web数据抓取?如何发送登录参数然后接收主页内容?感谢您的帮助。

    0热度

    1回答

    我如何使用网页收集从PDF中提取数据?我在页面中获取所有相关的PDF url,但我无法从这些Pdf中提取数据。我正在使用Web Harvest version 2.0来提取Pdfs url。请帮忙。 我如何将pdfcommand收集到网页中以获取文本?有没有其他的方式可以不用运行任何批处理文件?

    1热度

    1回答

    我想从网站“http://www.tecomdirectory.com/”使用webharvest取消所有html页面。但是脚本无法抓住所有的html页面,只能抓住很少的html页面。我使用下面的脚本: <!-- set initial page --> <var-def name="home">http://www.tecomdirectory.com</var-def> <!-- def

    2热度

    3回答

    我正在使用curl进行网页抓取,以查看LinkedIn个人资料页面。如果我们尝试从这个公开的(http://in.linkedin.com/in/ratneshdwivedi)网址提取数据,则该网址正在运行。当我登录LinkedIn并尝试从此URL收集数据(http://www.linkedin.com/profile/view?id=77597832&locale=en_US&trk=tyah2

    0热度

    1回答

    我有一个问题(可能是假的)。假设我的代码的HTML页面内下面的片段与一堆其他的东西(其它脚本标记和HTML标记): <script type="text/javascript"> var count = 0; var active = false; var mapData = **{"points": [{"type":"origin","name":"6003","

    0热度

    1回答

    我正在使用Webharvest从网站下载文件并采用其原始名称。 ,我有工作的Java代码: import org.apache.commons.httpclient.Header; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpStatu

    -1热度

    1回答

    我想要取消此页https://plus.google.com/115016587855962294424/about。 一切工作正常,但是当我尝试点击显示更多加载更多评论什么也没有发生,这里是我的代码 final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_24); page = webClient.getPage("ht