基于字体和字体大小的网页抓取

HTML文本抓取可以在网络中找到各种库。我试图从各种HTML页面解析网页的最大标题（标题） - 只有这一点 - 。基于字体和字体大小的网页抓取

我试图从几百页（它可以是产品页面或文章页面等）自动检测项目的主标题。如果有一种方法可以根据网页中可用文本的字体和字体大小进行解析决定，那就太棒了。由于主要标题几乎总是网页中字体最大的文本，因此这些信息可以让我深入了解在哪里可以找到标题。

所以问题是，有什么办法可以做到这一点？

来源

2015-07-03 ralzaul

找到最高的“”元素会不会更容易？即如果有一个“

”，其间有一些文字，请使用它。否则请尝试h2，h3，... – L3viathan

不幸的是，它并不总是在标签中，即使有时在实际产品/ artice名称/标题上还有其他各种元素。编辑的问题不应该有提到标题可以混淆

– ralzaul

基于大小的检测问题是，有这么多来源的大小计算。您可能需要一个实际的HTML渲染器，并从中读取有效大小。此外，有时标题不是网站上最大的文字。 – L3viathan

我想你可以做到这一点like this，不过这是因为你迭代身体内的所有 html元素一个非常耗费资源的任务。

var text, 
    size = 0; 

$("body, body *").each(function() { 
    var f_size = parseInt($(this).css("fontSize")); 
    if (size<f_size) { 
     text = $(this).text(); 
     size = f_size; 
    } 
    console.log(this.tagName + " " + f_size); 
});

来源

2015-07-03 11:20:26

我过滤掉了不必要的html部分后，实际上工作得很好。 – ralzaul

基于字体和字体大小的网页抓取

回答

相关问题