据我所知,BeautifulSoup和lxml能够提取html元素的dom结构。但我想自己做,因为我需要一个没有库存限制的高性能爬虫。所以有没有一种“简单”的方式来提取html元素的DOM结构而不使用Python库?
是否有一种“简单”的方式来提取html元素的dom结构而不使用python库?
我问这是因为我想通过仅在网站的前端搜索来查找html元素,然后在知道我想要哪个元素之后,我需要此元素的dom路径。
例如,计算器标志的此页面上的DOM路径是:
html > body.ask-page.new-topbar > div.container > div#header > div#logo > a
您需要*东西*实现[HTML5解析器算法](https://html.spec.whatwg.org/multipage/syntax.html#parsing)。你当然可以* *实现一个自己比Python更高性能的语言,准确地提供你想要的API,然后将其包装成Python的,但它是一个可怕的很多工作...... – zwol