我不是在谈论HTML标签,而是用于描述博客文章的标签,或者是YouTube网站上的视频或问题。智能地从博客和其他网页中提取标签
如果我只是抓取一个网站,我只是使用xpath来提取标签,或者如果它很简单,甚至是一个正则表达式。但我希望能够在我的extract_tags()函数中抛出任何网页并列出标签。
我可以想象使用一些简单的启发式方法,例如找到所有带有id或'tag'类的HTML元素等等。但是,这非常脆弱,并且可能会导致大量网页失败。你们推荐什么方法来解决这个问题?
另外,我知道Zemanta和Open Calais,它们都可以猜测一段文本的标签,但这与真人已经选择的提取标签不同。但我仍然喜欢听到任何其他服务/ API来猜测文档中的标签。
编辑:只是要清楚,一个已经为此工作的解决方案将是伟大的。但我猜测没有开源软件已经做到了这一点,所以我真的只是想听到人们对可能适用于大多数情况的可能方法。它不一定是完美的。编辑2:对于建议通常可行的通用解决方案的人是不可能的,并且我必须为每个网站/引擎编写自定义刮板,请考虑arc90 readability tool。这个工具能够以令人惊讶的准确度为网上任何给定的文章提取文章文本,使用某种启发式算法我相信。我还没有深入研究他们的方法,但它适合于一个小书签,并没有涉及太多。我明白提取文章可能比提取标签更简单,但它应该作为可能的例子。
是的,但是这不太可能覆盖我想要爬行的网站的一半。我无法为每种可能的结构写一些东西:/ – ehsanul 2010-09-04 06:20:44