2010-04-12 28 views
1

我将下载(为了将来的语言处理目的)几千个网页。现在我在想,我应该保存哪些元数据。我探讨了这一点,但我不会忽视重要的事情。下载网页时我应该保存哪些元数据?

<title> 
<link> 
<publish_date> 
<date_downloaded> 
<source> // to this page 
<keyword> // for Solr indexing 
<text> // cleaned body of page 

有什么重要的事情我可以错过未来吗?

回答

1

有一些别人认为你可能会感兴趣:

  • 文档类型(是文章,宣传,着陆页等)
  • 字幕/标题/摘要
  • 图像位置(图像的URL,如果你想在你的web应用中显示)
  • 作者
  • 科(所以你可以使用FQ在Solr的查询结果限制为特定部分)
相关问题