html-parser

4热度

1回答

我需要用一个简单的表单解析一个简单的HTML页面。对StackOverflow类似问题的答案建议使用各种非标准Java库之一，如TagSoup，JSoup，HTMLParser等等。然而，在网上搜索发现，有通过这个类存在于Java SE的一些标准功能：http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/Par

0热度

2回答

爪哇 - org.htmlparser.Parser，需要获得最新的H3的

htmlparser.Parser，之间我的html代码段（见下文），我需要得到的内容的有一堆这些容器在我的文件中有unqiue id的div。我可以得到div和他们的内部html就好了。我不如何获得H3标签这段代码的代码适用于div的，但不是H3之间的什么：如果发现与正确的ID的H3，我只是无法弄清楚如何获取innerHTML或标签之间的内容。感谢您的帮助 parser = n

1热度

3回答

在Perl中使用HTTP :: Cookie传递Cookie值

我需要登录到网站，解析HTML页面并提取特定HTML标记之间的值。我能够在不需要登录数据的页面上成功完成此操作。我正在使用HTML :: Parser类。 LWP :: UserAgent提供了cookie_jar方法，通过从文件加载cookie来设置cookie。不过，我想在脚本本身中对cookie值进行编码。那可能吗？我在网上找不到任何工作示例。这里是我的代码：请原谅失踪“我”在一些地方

0热度

2回答

java.lang.NoClassDefFoundError：org/htmlparser/util/ParserException

我试图让这个http://htmlparser.sourceforge.net/代码在eclipse中运行。这里的说明很简单：“要使用库，在编译和运行时，需要将htmllexer.jar或htmlparser.jar添加到类路径中。” 我已经将htmllexer.jar和htmlparser.jar添加到我的构建路径中，并且所有编译都很好。但在运行时，eclipse似乎无法找到这些jar文件。我

0热度

2回答

如何找到在HTML错误线时HTMLParserError发生

现在我使用Python编写的网络爬虫，但有时它抛出HTMLParserError： junk characters in start tag: u'\u201dTPL_password_1\u201d\r\n\t\t', at line 21285, column 6 它说的错误是在线路21285发现，确实这意味着错误发现在21285行的HTML源代码中？如果不是，我怎么知道什么是当前生成错误的H

17热度

3回答

如何转换在Jsoup（在Java HTML解析器）做了一个文档转换为字符串

我有一个在jsoup，看起来像这样 Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 制成的文件如何转换是doc成字符串。

0热度

1回答

为什么JSoup解析错了我的HTML代码？

我想解析一个网页，但是当我想要在页面中获得一段文字时。当我调用Jsoup.parse（）和Jsoup.connect（）。get（）方法时，Jsoup给我一个错误的Document。这是一个网页和我的代码。文档var有一个错误的DOM。 Document doc1 = Jsoup.parse("<p class=\"texto\"><p>El concurso fotográfic

1热度

1回答

使用HPPLE Html解析器的错误

我想使用HPPLE解析器，但我得到这些错误！任何人都可以帮助我为什么NASData不能有错误？

2热度

2回答

带逗号的分割字符串也会拆分＆符号

下面的代码解析HTML，当＆符号出现在数据中时，麻烦就会分裂。 from HTMLParser import HTMLParser data = '<HTML><meta http-equiv="Pragma" content="no-cache"></head>'\ '<body>107,1,236,1000,70,498,NameA NameB & NameC - ActionA Act

2热度

3回答

HTML解析器响应 - Java

我使用HttpClient访问一个particualr网站，我得到的响应是HTML格式。我应该使用解析器的HTML解析器或方法，并从响应中获得我想要的内容。注意：我使用HttpClient和Java一起使用