我正在使用nutch 2.0和solr 4.0,并取得最小的成功我有3个网址,我的正则表达式-urlfilter.xml被设置为允许一切。 我跑这个剧本Nutch updatedb杀死并跳过批处理ID号
#!/bin/bash
# Nutch crawl
export NUTCH_HOME=~/java/workspace/Nutch2.0/runtime/local
# depth in the web exploration
n=1
# number of selected urls for fetching
maxUrls=50000
# solr server
solrUrl=http://localhost:8983
for ((i = 1 ; i <= $n ; i++))
do
log=$NUTCH_HOME/logs/log
# Generate
$NUTCH_HOME/bin/nutch generate -topN $maxUrls > $log
batchId=`sed -n 's|.*batch id: \(.*\)|\1|p' < $log`
# rename log file by appending the batch id
log2=$log$batchId
mv $log $log2
log=$log2
# Fetch
$NUTCH_HOME/bin/nutch fetch $batchId >> $log
# Parse
$NUTCH_HOME/bin/nutch parse $batchId >> $log
# Update
$NUTCH_HOME/bin/nutch updatedb >> $log
# Index
$NUTCH_HOME/bin/nutch solrindex $solrUrl $batchId >> $log
done
----------------------------
我当然斌/ Nutch的我运行该脚本之前注入的网址,但是当我查看日志,我看到跳绳:不同批次ID和一些我看到的是网址那些不在seed.txt中的文件,我想将它们包含在solr中,但它们不会被添加。 我有3个网址,我seed.txt
后我跑这个剧本我曾试图 bin/nutch parse -force -all
bin/nutch updatedb
bin/nutch solrindex http://127.0.0.1:8983/solr/sites -reindex
我的问题如下。 1.最后三条命令为什么是必需的? 2.如何在解析作业期间获取所有网址,即使使用了-force -all我仍然获得不同的批次ID跳过 3.上面的脚本,如果我将生成-topN设置为5.这是否意味着如果一个网站有另一个网站到另一个网站到另一个网站到另一个网站到另一个网站的链接。它将被包含在提取/解析循环中? 4.为什么这个命令,为什么这甚至提到: bin/nutch crawl urls -solr http://127.0.0.1:8983/solr/sites -depth 3 -topN 10000 -threads 3.
5.当我运行bin/nutch updateb它需要1-2个mineuts然后回声被杀死。这关系到我。请帮忙。
是的,我已经阅读了很多关于nutch和solr的网页,我一直试图弄清楚这几个星期了。
这可能有助于问题5,我在只有618 MB RAM的服务器上运行这个服务 –
以及您可能面临OOM的高可能性。 –
上述脚本中是否强制解析命令? – peter