1
我将下载(为了将来的语言处理目的)几千个网页。现在我在想,我应该保存哪些元数据。我探讨了这一点,但我不会忽视重要的事情。下载网页时我应该保存哪些元数据?
<title>
<link>
<publish_date>
<date_downloaded>
<source> // to this page
<keyword> // for Solr indexing
<text> // cleaned body of page
有什么重要的事情我可以错过未来吗?