根据元素风格(fontSize,fontWeight,...)从HTML文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性并将它们放在一个csv文件中,现在我需要知道如何对这些数据进行分类(或分类?),以便它可以给我例如所有fontSize为20px的元素,公差为+ - 5px。这些元素将被转换成h1标签,等等..根据元素风格从html中提取标题和段落
编辑:我能够将fontSizes集群化为尽可能多的集群,因为我想要使用集群算法在Weka中使用曼哈顿距离函数的简单KMeans。但是,对于每个群集,我都会得到一个精确的值,例如:font-size 10px被捕获100次,20px 200次等等。我需要一个范围而不是特定值来覆盖所有值。
你为什么要依赖这种聚类?这不够可靠。 –
我正在寻找你们的建议。你有什么建议? –
使用阈值。 –