-1

根据元素风格(fontSize,fontWeight,...)从HTML文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性并将它们放在一个csv文件中,现在我需要知道如何对这些数据进行分类(或分类?),以便它可以给我例如所有fontSize为20px的元素,公差为+ - 5px。这些元素将被转换成h1标签,等等..根据元素风格从html中提取标题和段落

编辑:我能够将fontSizes集群化为尽可能多的集群,因为我想要使用集群算法在Weka中使用曼哈顿距离函数的简单KMeans。但是,对于每个群集,我都会得到一个精确的值,例如:font-size 10px被捕获100次,20px 200次等等。我需要一个范围而不是特定值来覆盖所有值。

+0

你为什么要依赖这种聚类?这不够可靠。 –

+0

我正在寻找你们的建议。你有什么建议? –

+0

使用阈值。 –

回答

0

首先这将是一个评论,但我是新的,不能写评论现在。

我能够将fontSizes集群到尽可能多的集群,因为我想使用集群算法在Weka中使用曼哈顿距离函数的简单KMeans。但是,对于每个群集,我都会得到一个精确的值,例如:font-size 10px被捕获100次,20px 200次等等。我需要一个范围而不是特定值来覆盖所有值。

您可以使用名为somthing的选项指定群集的数量,如“numClusters”。因此,您可以强制weka按照您的要求构建尽可能多的集群,这意味着如果您具有比集群更多的不同值,则必须使用范围而不是特定数字。

但这里是我的问题为什么不使用简单的循环遍历数据并指定您想要的数据。 喜欢的东西

if(fontSize < 10) { 
/*Do s.th*/ 
}else if(fontSize < 20){ 
/*Do s.th. 
} 

因为这似乎是一个方式更可靠,更容易。 即使您拥有更多属性,也只需手动为每个群集定义属性范围,并检查任何数据集是否适合其中一个群集。

如果您拥有绝大多数的属性或群集,或者对数据不甚了解,我只会推荐像weka这样的任务。但你的任务看起来并不那样。

0

尝试基于机器学习的boilerpipe java API。你可以测试不同的型号on-line