2016-09-23 55 views
3

我想使用tdbloader将YAGO 3 rdf三元组(yago3_entire_ttl.7z从http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/)用到apache-jena triplestore(3.1.0)。在加载到Apache-jena TDB triplestore之前清理YAGO文件

由Apache的设置Jena的验证输入的防暴工具提供2种类型的错误(多次出现):

  1. 非法Unicode转义序列值:\\(0x5C)在IRI
  2. 非法字符(代码点0x7C,'|')

我明显的想法是用'\'和'|'代替。与接受的字符序列,通过暴乱验证,但我想知道是否有其他解决方案?

+0

同样的问题在这里,任何想法? – n1try

+1

不是一个解决方案,而是我的解决方法:我最终将Openlink的Virtuoso的开源版本与jena库一起用作triplestore。在Centos Linux 7上导入670Mio三元组没有问题。 –

回答

0

找到了解决办法在这里:

现在.ttl文件需要得到某种形式的预处理,其中非Unicode字符是为了取代了耶拿接受数据。在Linux上运行sed -i's/|/-/g'./ * & & sed -i's/\\/-/g'./ * & & sed -i's/-/-/g' ./*从您的.ttl文件所在的目录中。在Windows上,启动Ubuntu Bash,导航到相应的目录(例如/ mnt/c/Users/Ferdinand/yago)并执行相同的命令。这将需要几分钟的时间。我的意思是,真的几个...

https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html

+0

这可以用来解决URI的空间问题吗? – RDangol

相关问题