0

我想知道是否有任何已知的方法将网站按照HTML级别存在的结构模式分类为博客,新闻,论坛(或其他类型的CMS类型)而不是纯粹的内容。我不认为只有基于文本的分析才能区分这种类型的分类吗?直观地说,特别是对于博客/新闻和论坛之间的区别,关于结构模式的频率和多样性(模式可以是例如代表标记路径的XPath表达式)有明显的区别。 我如何选择这些结构特征,以便达到分类目标?有没有成功的开源方法?网站分类到博客,新闻或论坛

+0

你想看看HTML元素只(不包括其文本内容)看一下吗?那么'

'而不是'
Author: John
'? – unor

+0

我想在分类任务中使用文本特征,但也要结构化。统计例如重复结构模式的数量(如元素的HTML编码,可能抽象非常具体的属性 - 没有文本)。例如在论坛上,这个数字会高于新闻页面(除非页面的评论数量很高......)。 –

回答

0

您可以通过添加某些属性的HTML标记

使用谷歌提出的结构化内容的方法就拿这里http://schema.org/docs/gs.html

+0

对不起,我不确定我明白这将如何帮助。 –