2010-05-17 252 views
1

我正在寻找从各种网站提取各种数据的方法。我知道有些程序可以购买,但是我正努力学习,我想自己做。有没有人对一般结构有任何建议,如果有的话,你会写什么语言。我的第一个想法是Java,但我非常乐意和感激地听到其他人的意见。数据提取?

回答

1

你试图从网站中提取什么样的数据?什么网站?等等。有关你的想法/项目的更多细节将有所帮助

我最近有需要查看并尝试几个html解析器来获得我需要的一些更加整合的格式的数据。

我尝试过JTidy(http://jtidy.sourceforge.net/)并查看了Web-Harvest(http://web-harvest.sourceforge.net/)。 JTidy不会做我想做的事情,而Web-Harvest太过分了。

我使用Java +的HTMLParser(http://htmlparser.sourceforge.net/

最终落户花了很少的开发时间得到什么,我需要和HTMLParser的让你形成“过滤器”,搜索在DOM具体的事情。

+0

比方说,我从确定的有限数量的网站提取价格。并且各种信息将由用户输入。然后通过这些网站查询..感谢您的帮助 – Eric 2010-05-17 13:38:03

0

看看hadoop(栅格)和solr(爬行器和索引器)。它们都支持重处理和有效索引(用于高效搜索)。