Q

使用Jena Library的Java中的关联数据的Web爬虫

2012-09-24 17 views 1 likes

1

我必须实现访问Web上的关联数据的Web Cralwer。我为此构建了一个简单的功能。我有三个查询：使用Jena Library的Java中的关联数据的Web爬虫

什么是我应该使用的种子URI。以RDF格式提供数据并遵循Tim Berners Lee的网站Linked Data principles ??
一般来说，对于Web-Cralwers，基于圆的方法意味着什么？我阅读了一般的网络爬虫，发现应该遵循基于循环的方法。
我只能解析可以返回RDF/XML数据的网页。是否足以抓取关联数据。

2012-09-24 Prannoy Mittal

A

回答

4

有几个选项，比如使用在lodcloud group on the Data Hub列在Billion Triples Challenge dump发现为出发点的所有URI，或者所有的资源（可以通过CKAN API检索）。
对不起，我不知道。
不，RDF/XML是不够的，因为发布为链接数据的许多数据集使用其他格式。你也想要Turtle和RDFa。您可以使用Apache Any23，它理解以上所有内容。 LDSpider是一个使用Any23的爬行器。

2012-09-24 22:25:08 cygri

相关问题