html-parser

    4热度

    1回答

    我需要用一个简单的表单解析一个简单的HTML页面。对StackOverflow类似问题的答案建议使用各种非标准Java库之一,如TagSoup,JSoup,HTMLParser等等。 然而,在网上搜索发现,有通过这个类存在于Java SE的一些标准功能:http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/Par

    0热度

    2回答

    htmlparser.Parser, 之间我的html代码段(见下文),我需要得到的 内容的 有一堆这些容器在我的文件中有unqiue id的div。 我可以得到div和他们的内部html就好了。我不 如何获得H3标签 这段代码的代码适用于div的,但不是H3之间的什么: 如果发现与正确的ID的H3,我只是无法弄清楚如何 获取innerHTML或标签之间的内容。 感谢您的帮助 parser = n

    1热度

    3回答

    我需要登录到网站,解析HTML页面并提取特定HTML标记之间的值。 我能够在不需要登录数据的页面上成功完成此操作。我正在使用HTML :: Parser类。 LWP :: UserAgent提供了cookie_jar方法,通过从文件加载cookie来设置cookie。不过,我想在脚本本身中对cookie值进行编码。那可能吗?我在网上找不到任何工作示例。 这里是我的代码: 请原谅失踪“我”在一些地方

    0热度

    2回答

    我试图让这个http://htmlparser.sourceforge.net/代码在eclipse中运行。 这里的说明很简单:“要使用库,在编译和运行时,需要将htmllexer.jar或htmlparser.jar添加到类路径中。” 我已经将htmllexer.jar和htmlparser.jar添加到我的构建路径中,并且所有编译都很好。但在运行时,eclipse似乎无法找到这些jar文件。我

    0热度

    2回答

    现在我使用Python编写的网络爬虫,但有时它抛出HTMLParserError: junk characters in start tag: u'\u201dTPL_password_1\u201d\r\n\t\t', at line 21285, column 6 它说的错误是在线路21285发现,确实这意味着错误发现在21285行的HTML源代码中?如果不是,我怎么知道什么是当前生成错误的H

    17热度

    3回答

    我有一个在jsoup,看起来像这样 Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 制成的文件如何转换是doc成字符串。

    0热度

    1回答

    我想解析一个网页,但是当我想要在页面中获得一段文字时。当我调用Jsoup.parse()和Jsoup.connect()。get()方法时,Jsoup给我一个错误的Document。 这是一个网页和我的代码。文档var有一个错误的DOM。 Document doc1 = Jsoup.parse("<p class=\"texto\"><p>El concurso fotográfic

    1热度

    1回答

    我想使用HPPLE解析器,但我得到这些错误!任何人都可以帮助我为什么NA​​SData不能有错误?

    2热度

    2回答

    下面的代码解析HTML,当&符号出现在数据中时,麻烦就会分裂。 from HTMLParser import HTMLParser data = '<HTML><meta http-equiv="Pragma" content="no-cache"></head>'\ '<body>107,1,236,1000,70,498,NameA NameB & NameC - ActionA Act

    2热度

    3回答

    我使用HttpClient访问一个particualr网站,我得到的响应是HTML格式。我应该使用解析器的HTML解析器或方法,并从响应中获得我想要的内容。 注意:我使用HttpClient和Java一起使用