lxml.html

1热度

1回答

以下代码能够从以下路由器链接中提取PE。但是，我的方法并不稳健，因为另一只股票的网页有两条线较少，导致数据转移。我怎么能遇到这个问题。我想直接指出PE的部分来提取数据，但不知道如何去做。链接1：http://www.reuters.com/finance/stocks/financialHighlights?symbol=MYEG.KL 链接2：http://www.reuters.com/fi

0热度

1回答

为什么网站使用不同的扩展名？

任何人都可以告诉我为什么网站将扩展名为不同的名称，如.html，.com，.net，.php，.asp？我在.html上找到了一些信息，但是我没有找到其他的扩展名。谢谢

0热度

1回答

如何检查lxml xpath中是否存在元素？

我用lxml xpath用于在Python 3 为样本解析HTML的网页我有代码，即发现元素HTML： version_android = doc.xpath("//div[@itemprop='operatingSystems']//text()") 爸爸，我有插入MySQL查询： insert = ("insert into tracks (version) values ('%s')"

1热度

3回答

无法删除抓取的文本之间的空间

我已经在python中编写脚本来从一些html元素中删除一些文本。脚本现在可以解析它。但是，问题是结果看起来很奇怪，它们之间有一堆空格。我该如何解决它？任何帮助将不胜感激。这是HTML元素的文本应该被刮掉： html=""" <div class="postal-address"> <p>11525 23 AVE</p> <p>EDMONTON, AB

1热度

1回答

选择和修改的XPath节点

我使用此代码来获取所有的名字： def parse_authors(self, root): author_nodes = root.xpath('//a[@class="booklink"][contains(@href,"/author/")]/text()') if author_nodes: return [unicode(author) for autho

-1热度

3回答

如何将html，css，js页面转换为网页

我有一个主要的html页面，我打电话给其他三个html页面，一个css和一个jQuery。我想将其转换为网站。 PS：这是我第一次程序

0热度

1回答

无法访问到单元格文本的HTML表格内（硒，蟒蛇）

我一直在尝试了几个小时，现在来提取特定小区用下表中一个文本白白： <tbody class="table-body"> <tr class=" " data-blah="25293454534534513" data-currency="1"> <td class="action-cell no-sort"> <a href="" class="buy-btn t

1热度

1回答

lxml删除双斜杠iframe

我使用lxml来清理html数据，但在某些情况下，lxml也删除了有效标记。它删除具有有效的主机的iframe标签，但双斜杠（//）代码示例启动： >>> cleaner = Cleaner(host_whitelist=['www.youtube.com']) >>> iframe = '<iframe src="//www.youtube.com/embed/S2S5I5GHkDQ"></

0热度

1回答

无法在lxml中获得<a>标记中的值

我正在使用lxml从网站上刮取数据。的HTML代码段是 <span class="pro-contact-text"> <a class="click-to-call-link text-gray-light trackMe" href="javascript:;" objId="104809" compid="clickToCall_profile_organic" phone="(

0热度

1回答

lxml.html设置错误“类型错误：参数必须是字节或Unicode，得到了‘NoneType’”

我试图把一个“延迟”使用lxml.html属性转换脚本标签，但我得到的错误类型错误：参数必须是字节或Unicode，得到了 'NoneType' 或类型错误：组（）恰恰2位置参数（给定1）如果我使用 script.set('defer') 根据http://lxml.de/lxmlhtml.html .SET（键，值=无）：设置HTML属性。如果没有给定值，或者如果值是None，它会建