2017-06-22 17 views
0

我试图设置Nutch 2.3与Elasticsearch 5.4。问题出在Nutch,因为我无法注入我的网址。 Hadoop的日志显示以下警告:Apache Nutch 2.3:不会注入URL(挂起)&hadoop日志显示警告

控制台:

aurora apache-nutch-2.3.1 # runtime/local/bin/nutch inject urls/seed.txt 
InjectorJob: starting at 2017-06-14 17:08:28 
InjectorJob: Injecting urlDir: urls/seed.txt 

**它挂在这里**

Hadoop的日志:

aurora apache-nutch-2.3.1 # cat runtime/local/logs/hadoop.log 
2017-06-14 17:08:28,339 INFO crawl.InjectorJob - InjectorJob: starting at 2017-06-14 17:08:28 
2017-06-14 17:08:28,340 INFO crawl.InjectorJob - InjectorJob: Injecting urlDir: urls/seed.txt 
2017-06-14 17:08:28,992 WARN util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 

我我试着在这个线程后面设置我的Hadoop环境变量(Hadoop "Unable to load native-hadoop library for your platform" warning)米仍然得到相同的错误。

任何想法?

回答

0
  1. 不要担心警告。我相信你正在使用Linux发行版
  2. Nutch2.3与ES 5.x不兼容。我写了一个自定义的IndexWriter,它在给定的端口调用Logstash,然后调用Elastic Search。你可以尝试这种方法或其他方法。
+0

好的,谢谢。你有这两个工作设置? –

+0

我使用了Oracle Virtual box并在其上运行ubuntu。那里有所有的变化。对于logstash自定义代码,您可以使用2.3版本的索引器并根据需要进行更改。我会尽量为你提供一个样本,给我一些时间。 –