我试图通过其余api启动爬网。抓取始于注入网址。使用铬开发工具“高级休息客户端”我试图建立这个POST有效载荷,但我得到的答复是一个400坏请求。Apache Nutch REST api
POST - http://localhost:8081/job/create
有效载荷
{
"crawl-id":"crawl-01",
"type":"INJECT",
"config-id":"default",
"args":{ "path/to/seedlist/directory"}
}
我的问题是在指定参数时,我觉得更多的是需要的,但我不知道。在NutchRESTAPI页面中,它是创建作业的示例。
POST /job/create
{
"crawlId":"crawl-01",
"type":"FETCH",
"confId":"default",
"args":{"someParam":"someValue"}
}
POST /job/create
{
"crawlId":"crawl-01",
"jobClassName":"org.apache.nutch.fetcher.FetcherJob"
"confId":"default",
"args":{"someParam":"someValue"}
}
我不确定什么参数或值给每个命令来完成一项工作。 (例如Inject,Generate,Fetch,Parse和UpdateDb)有人可以清除它吗?我如何告诉api在哪里查找种子列表?
UPDATE
努力完成我来到一个classException错误,其中用于TOPN关键字的值是long类型的,但API读取它作为一个字符串或一个int的生成命令时。我发现了一个应该包含在2.3.1版本(发布日期:TBA)中的修复程序,并将其应用并重新编译了我的代码。它现在可以工作。
你使用Nutch 2.3吗? – jgloves
是的,我是。只是还没有找到一个完整的文档,列出所有可能的参数或可接受的值进行适当的爬网。 – itsNino91
我在下面的答案链接到一个更详细的文件。 – jgloves