beautifulsoup4
碰巧在某些情况下会截断无效(我猜)html。我很想强迫它不这样做。我假设在那里没有“正式”的方式,但也许你已经在某种程度上完成了?防止bs4截断html
0
A
回答
1
如果HTML被破坏,重建可行的元素树并不总是可能的。但是,您可以尝试使用不同的后端解析器。并非所有的解析器都可以将破碎的HTML视为相同。
的html5lib
解析器是在处理损坏的HTML尤其擅长,处理这样的输入相同,将多数浏览器:
soup = BeautifulSoup(htmlcontent, 'html5')
您也可以尝试lxml
这里。这两个库都是单独安装的。
+0
谢谢。性能不是一个关心这里只是好奇,是'html5'慢或它只是我? – nutship
+1
'html5lib'确实比较慢,它做了很多工作。 –
相关问题
- 1. Rails控制台截断Activerecord输出 - 如何防止截断?
- 2. 如何防止PowerCharts截断轴标签?
- 3. 如何防止在RelativeLayout中截断
- 4. 防止UiNavigationBar标题被截断?
- 5. 如何防止越来越截断
- 6. 如何防止REPL截断输出?
- 7. 如何防止Highcharts截断类别?
- 8. 如何防止SoundPool截断声音
- 9. Django HTML截断
- 10. 截断文本,但不截断HTML
- 11. 防止Word断
- 12. 截断HTML错误?
- 13. 截断HTML液体
- 14. 用TranslateX预防截止点
- 15. 停止截断Java文件?
- 16. 截止第四断行
- 17. 使用jquery dotdotdot截断时,防止闪烁全文
- 18. 防止更新,删除和截断数据库表
- 19. 如何防止截断Flex组合框中文本的底部?
- 20. 如何防止AS3中的此任意文本截断
- 21. 如何防止PHP字符串在1997字符后截断
- 22. 如何防止在Android上截断快餐栏文本?
- 23. 如何防止在使用UITableViewCellStyleValue1时截断textLabel?
- 24. 如何防止字在XSLT中被截断
- 25. SAS批量提交 - 防止每行256个字符的截断?
- 26. iPhone:防止文本截断与UITableView的风格UITableViewCellStyleValue1
- 27. 防止python截断用作键的数据
- 28. 如何防止Graphite URL API中的图形截断?
- 29. 绘制区域填充以防止符号被截断。 (Core Plot)
- 30. 如何防止在单元测试中截断字符串python
请给出一个HTML输入的例子,你看到的输出,你使用的代码,你使用的bs4版本,以及哪个解析器(和解析器版本,以及,如果它是lxml, libxml2版本)。 – abarnert