html-parser

0热度

1回答

我试图从HTML源代码段既HTMLParser和BeautifulSoup 然而解码HTML entities既不似乎完全正常工作。即他们不解码斜杠。我的Python版本是2.7.11与BeautifulSoup版本3.2.1 print 'ORIGINAL STRING: %s \n' % original_url_string #clean up try: # Python

-1热度

2回答

Jsoup：如何在很多元素中获取ID和href

我需要在所有元素中获取ID和href（如图中彩色框所示）。我不知道如何正确地寻找路径并提取所需的信息。我怎样才能做到这一点？

1热度

1回答

HTML解析器导入问题

所以我想在Python中使用HTMLParser和urllib3在python中制作一个web爬虫。目前我有两个不同的进口问题，第一个是 import html.parser import urllib urlText = [] #Define HTML Parser class parseText(HTMLParser.HTMLParser): def handle_data(s

0热度

1回答

使用Jsoup解析HTML元素

使用Jsoup，我一直试图解析文章并通过以编程方式创建TextView和ImageView来在Android应用中显示它。我试图避免在Android Studio中使用WebView布局，因为它不提供太多的自定义。使用TextView，我可以设置应用程序的行为，如我所愿。问题是我应该得到文章元素完全按照的顺序，并按顺序显示它。文章可能看起来像这样（简化要求的缘故） <h2>Lorem ipsu

1热度

3回答

使用BeautifulSoup从标题标签中提取数据？

我想通过python中的BeautifulSoup库获取它的HTML后提取链接的标题。基本上，整个标题标签 <title>Imaan Z Hazir on Twitter: "Guantanamo and Abu Ghraib, financial and military support to dictators in Latin America during the cold wa

0热度

1回答

Htmlparser2解析获取链接，然后解析这些链接（node.js）

我在nodejs中使用htmlparser2来解析HTML页面。我解析一个页面以获取到其他页面的链接。然后，我想解析这些链接（解析函数与第一个解析页面上的解析函数不同）以获取我需要的链接旁边的其他信息。我的问题是，我不知道如何解析多个页面。如果我在数组中放入链接，然后遍历它并为每个页面调用解析器，由于异步性质，它不起作用。即使我在for循环中调用了多个请求，它也不会解析所有的链接，而且我仍然遇到

0热度

2回答

获取列表元素时，HTML解析

我有这样一段HTML的： <li class="myclass"> <ul class="myclass2"> <li><span>Name1</span><span>Value1</span></li><li><span>Name2</span><span>Value2</span></li><li><span>Name3</span><span>Value3</s

0热度

1回答

python beautifulsoup：lxml html.parser

我必须使用beautifulsoup，但我不知道我必须采用哪个解析器。我在lxml和html.parser之间犹豫不决，或者为什么不是两者。如何知道网页是否符合lxml？如何知道网页是否符合html解析器？非常感谢

0热度

1回答

PHP简单的HTML DOM解析器 - 环

我就开始玩简单的HTML末日解析器和我有一些麻烦：的HTML代码如下： <div class="players"> <ul class="dane"> <li> <div class="name">Messi</div> <div class="value">Barcelona</div> </li> <li>

0热度

1回答

无法使用节点的HTMLParser

我尝试使用下面的代码阅读Slashdot的RSS订阅阅读RSS提要： var htmlparser = require("htmlparser"); var sys = require("sys"); var handler = new htmlparser.RssHandler(function (error, dom) { if(error) throw error;