3
HTML文本抓取可以在网络中找到各种库。我试图从各种HTML页面解析网页的最大标题(标题) - 只有这一点 - 。基于字体和字体大小的网页抓取
我试图从几百页(它可以是产品页面或文章页面等)自动检测项目的主标题。如果有一种方法可以根据网页中可用文本的字体和字体大小进行解析决定,那就太棒了。由于主要标题几乎总是网页中字体最大的文本,因此这些信息可以让我深入了解在哪里可以找到标题。
所以问题是,有什么办法可以做到这一点?
找到最高的“”元素会不会更容易?即如果有一个“”,其间有一些文字,请使用它。否则请尝试h2,h3,... –
L3viathan
不幸的是,它并不总是在标签中,即使有时在实际产品/ artice名称/标题上还有其他各种元素。编辑的问题不应该有提到标题可以混淆 –
ralzaul
基于大小的检测问题是,有这么多来源的大小计算。您可能需要一个实际的HTML渲染器,并从中读取有效大小。此外,有时标题不是网站上最大的文字。 – L3viathan