2012-01-29 28 views
0

我试图重现由Clearly完成的网页的“内容检测”。内容检测算法

给定一个网页,我想自动区分文本内容,而不是文本菜单,文字广告,文字按钮等

适合什么算法来检测从HTML页的文字内容?

[在StackOverflow的情况下,内容将是实际问题。其余的只是“围绕内容的松散”。]

+0

可能重复[什么算法确实可读性使用了从URL中提取文本?](http://stackoverflow.com/questions/3652657/what-algorithm-does-readability-use-for-extracting -text-from-urls) – Regexident 2012-01-29 16:16:25

回答