html-parser

    0热度

    1回答

    我试图从HTML源代码段既HTMLParser和BeautifulSoup 然而解码HTML entities既不似乎完全正常工作。即他们不解码斜杠。 我的Python版本是2.7.11与BeautifulSoup版本3.2.1 print 'ORIGINAL STRING: %s \n' % original_url_string #clean up try: # Python

    -1热度

    2回答

    我需要在所有元素中获取ID和href(如图中彩色框所示)。我不知道如何正确地寻找路径并提取所需的信息。我怎样才能做到这一点?

    1热度

    1回答

    所以我想在Python中使用HTMLParser和urllib3在python中制作一个web爬虫。目前我有两个不同的进口问题,第一个是 import html.parser import urllib urlText = [] #Define HTML Parser class parseText(HTMLParser.HTMLParser): def handle_data(s

    0热度

    1回答

    使用Jsoup,我一直试图解析文章并通过以编程方式创建TextView和ImageView来在Android应用中显示它。我试图避免在Android Studio中使用WebView布局,因为它不提供太多的自定义。使用TextView,我可以设置应用程序的行为,如我所愿。 问题是我应该得到文章元素完全按照的顺序,并按顺序显示它。 文章可能看起来像这样(简化要求的缘故) <h2>Lorem ipsu

    1热度

    3回答

    我想通过python中的BeautifulSoup库获取它的HTML后提取链接的标题。 基本上,整个标题标签 <title>Imaan Z Hazir on Twitter: "Guantanamo and Abu Ghraib, financial and military support to dictators in Latin America during the cold wa

    0热度

    1回答

    我在nodejs中使用htmlparser2来解析HTML页面。我解析一个页面以获取到其他页面的链接。然后,我想解析这些链接(解析函数与第一个解析页面上的解析函数不同)以获取我需要的链接旁边的其他信息。 我的问题是,我不知道如何解析多个页面。如果我在数组中放入链接,然后遍历它并为每个页面调用解析器,由于异步性质,它不起作用。即使我在for循环中调用了多个请求,它也不会解析所有的链接,而且我仍然遇到

    0热度

    2回答

    我有这样一段HTML的: <li class="myclass"> <ul class="myclass2"> <li><span>Name1</span><span>Value1</span></li><li><span>Name2</span><span>Value2</span></li><li><span>Name3</span><span>Value3</s

    0热度

    1回答

    我必须使用beautifulsoup,但我不知道我必须采用哪个解析器。 我在lxml和html.parser之间犹豫不决,或者为什么不是两者。 如何知道网页是否符合lxml? 如何知道网页是否符合html解析器? 非常感谢

    0热度

    1回答

    我就开始玩简单的HTML末日解析器和我有一些麻烦: 的HTML代码如下: <div class="players"> <ul class="dane"> <li> <div class="name">Messi</div> <div class="value">Barcelona</div> </li> <li>

    0热度

    1回答

    我尝试使用下面的代码阅读Slashdot的RSS订阅阅读RSS提要: var htmlparser = require("htmlparser"); var sys = require("sys"); var handler = new htmlparser.RssHandler(function (error, dom) { if(error) throw error;