lxml.html

    1热度

    1回答

    以下代码能够从以下路由器链接中提取PE。但是,我的方法并不稳健,因为另一只股票的网页有两条线较少,导致数据转移。我怎么能遇到这个问题。我想直接指出PE的部分来提取数据,但不知道如何去做。 链接1:http://www.reuters.com/finance/stocks/financialHighlights?symbol=MYEG.KL 链接2:http://www.reuters.com/fi

    0热度

    1回答

    任何人都可以告诉我为什么网站将扩展名为不同的名称,如.html,.com,.net,.php,.asp? 我在.html上找到了一些信息,但是我没有找到其他的扩展名。 谢谢

    0热度

    1回答

    我用lxml xpath用于在Python 3 为样本解析HTML的网页我有代码,即发现元素HTML: version_android = doc.xpath("//div[@itemprop='operatingSystems']//text()") 爸爸,我有插入MySQL查询: insert = ("insert into tracks (version) values ('%s')"

    1热度

    3回答

    我已经在python中编写脚本来从一些html元素中删除一些文本。脚本现在可以解析它。但是,问题是结果看起来很奇怪,它们之间有一堆空格。我该如何解决它?任何帮助将不胜感激。 这是HTML元素的文本应该被刮掉: html=""" <div class="postal-address"> <p>11525 23 AVE</p> <p>EDMONTON, AB

    1热度

    1回答

    我使用此代码来获取所有的名字: def parse_authors(self, root): author_nodes = root.xpath('//a[@class="booklink"][contains(@href,"/author/")]/text()') if author_nodes: return [unicode(author) for autho

    -1热度

    3回答

    我有一个主要的html页面,我打电话给其他三个html页面,一个css和一个jQuery。 我想将其转换为网站。 PS:这是我第一次程序

    0热度

    1回答

    我一直在尝试了几个小时,现在来提取特定小区用下表中一个文本白白: <tbody class="table-body"> <tr class=" " data-blah="25293454534534513" data-currency="1"> <td class="action-cell no-sort"> <a href="" class="buy-btn t

    1热度

    1回答

    我使用lxml来清理html数据,但在某些情况下,lxml也删除了有效标记。它删除具有有效的主机的iframe标签,但双斜杠(//) 代码示例启动: >>> cleaner = Cleaner(host_whitelist=['www.youtube.com']) >>> iframe = '<iframe src="//www.youtube.com/embed/S2S5I5GHkDQ"></

    0热度

    1回答

    我正在使用lxml从网站上刮取数据。的HTML代码段是 <span class="pro-contact-text"> <a class="click-to-call-link text-gray-light trackMe" href="javascript:;" objId="104809" compid="clickToCall_profile_organic" phone="(

    0热度

    1回答

    我试图把一个“延迟”使用lxml.html属性转换脚本标签,但我得到的错误 类型错误:参数必须是字节或Unicode,得到了 'NoneType' 或 类型错误:组()恰恰2位置参数(给定1) 如果我使用 script.set('defer') 根据http://lxml.de/lxmlhtml.html .SET(键,值=无): 设置HTML属性。如果没有给定值,或者如果值是None,它会建