我想从各种网站获取数据。在堆栈溢出搜索后,我使用crawler4j,因为许多人提出这一点。下面是我的理解/设计:crawler4J高效设计获取数据
1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly.
3. Now, get the list of all URL's from sitemap.xml
4. Now, fetch the content for all above URL's
5. If sitemap.xml is also not available, then scan entire website.
现在,你可以请请让我知道,是crawler4J能够做到步骤1,2和3 ??? 请提出任何更好的设计可用(假设没有饲料可用) 如果是的话,请你指导我如何做。
感谢 Venkat
嗨,有什么输入吗? – topblog 2012-02-25 19:21:34
任何帮助将不胜感激... – topblog 2012-02-26 02:37:59