html-parser

0热度

3回答

如何让urllib只引用有效的％编码字符串？ html_parser = HTMLParser.HTMLParser() url = '[email protected]#*%ed%20&' print urllib2.unquote(url) print html_parser.unescape(url) 结果是 [email protected]#*� & [ema

0热度

1回答

JAVA - 我需要更改JSOUP中绝对路径的相对路径

我是jsoup Java HTML解析器中的新成员。我有以下代码： String url =”http://bestSite.com”; try{ Document document = Jsoup.connect(url).get(); File input = new File("/somePath/output.html"); PrintWriter writer = ne

3热度

1回答

如何使用htmlparser2解析html文件？

我正在使用Node.js，我需要解析一个html文件。现在我已经使用了htmlparser2，它解析parser.write（“String”）方法中的字符串。我可以使用html解析器解析一个html文件吗？如果是，那么如何？帮助表示赞赏？

0热度

1回答

移动此文档的对象可能在这里找到php

我将我的网页重定向到另一个URL。它在本地主机上运行良好，但是当我将其托管到我的网络服务器时，它会给我提示“对象已移动此文档可能位于此处”的消息。我不知道这里的问题是我的代码。 foreach($html->find('a[class=btn btn-warning btn-block]') as $element) $redic=$element->href; heade

3热度

1回答

HTMLParser for Python 3.4

我有一些使用HTMLParser的Python（2.7）编写的代码。我目前使用Pyhton 3.4。我无法找到HTMLParse下载模块。我搜查了很多。我找不到它。我担心它是否存在。如果存在，请分享链接。如果不是，我该怎么办？

0热度

1回答

HTMLParser：获取中的数据，该数据跟在另一个

我使用Python的HTMLParser（本身不是一个需求，但它比公司环境原因的外部库更好）从一个来自严重开发的软件，看起来像这样摘录： (...) <tr> <td class='resultLabel'> Scan Syntax </td> <td></td> </tr> <tr> <td class='resultLabel'>Sho

1热度

1回答

识别HTML源代码中的RSS链接

是否有方法从HTML文本代码中识别RSS链接。我需要用JAVA编码来从HTML源代码中提取这个链接，但我无法找到不同网站将RSS链接嵌入到网页HTML代码中的方式。有些网站使用“type = application/rss + xml”，但并非全部用于例如discovery.com和cnn.com。有什么方法可以为任何网站编码？

-1热度

3回答

从电子商务产品页面提取主要产品图像

我正在寻找从零售商网站上的产品页面提取主要图像的选项，问题是产品页面中有多个图像（相关图像），一种方法我认为将工作将是提取所有图像链接，下载其中每一个，并比较每个这些图像的大小，并考虑其中存储字节的最大尺寸作为主要产品图像。显然这是一种非常低效的方法，我们知道大多数零售商使用某些电子商务平台，如magento，bigcommerce等，主要的电子商务平台只有少数，是否有可能检测到电子商务平台并利

-1热度

1回答

div嵌套的innerText返回对象引用不设置到对象的实例在HtmlAgilitypack

我试图让使用HtmlAgilitypack。我的HTML代码，嵌套div的价值是这样的：这里是我的代码： var val = resultat1.DocumentNode.SelectSingleNode("//div[@class='journal-content-article']/div[@class='news_page max']/div[@class='news_page_wrap

0热度

1回答

如何使用JAVA中的新代码更新HTML标题部分

我有几个htmls，我想用我的新代码行代替标题部分。（我的新代码是 - 新的CSS，新的JS文件导入和几个脚本）。我想要替换所有现有的标题部分，并用新的部分替换。这种变化应该是永久性的。我知道如何在JS或JQuery中完成它，但它不可行，因为它会在每次加载html时执行。如果我在java中得到一个解决方案，就像我只运行一次特定的后端代码一样，它会永久更新我的HTML文件。 <html>