html-parsing

    0热度

    1回答

    我知道如何在页面分页时循环,但我希望在一个循环函数中抓取多个信息/ html_nodes,但我不确定是否可以设置它。到目前为止,我尝试了以下。这基本上是一个jobsearch网站,我想要公司名称,公司名称和公开职位的数量。 我用sprintf来得到第1-14页。 urlingtek <- sprintf("https://www.jobindex.dk/virksomhedsoversigt/ka

    0热度

    1回答

    输入URL http://py4e-data.dr-chuck.net/comments_42.html 当我运行这段代码,预期的输出是包含数字,是标签这是内部列表在程序中被解析。但我所得到的是列表中的最后一个数字。 请更正程序,以显示在所有标签目前号码的列表被解析 from urllib.request import urlopen from bs4 import BeautifulSoup

    3热度

    1回答

    我是BeautifulSoup4的新手,并且遇到了一个似乎很基本的问题。我只能通过身份证找到,但不能按班上课。例如,我在看它有HTML在它下面的部分站点: 现在,以下工作: page_soup.findAll('div', {'id': 'page-content'}) 而下面发现什么: page_soup.findAll('div', {'class': 'main-container'})

    0热度

    2回答

    我有HTML这样的: <div>Lorem ipsum <b>dolor sit</b> amet.</div> 我怎样才能找到一个简单的基于文本的比赛在这个HTML我的搜索字符串ipsum dolor?我需要匹配的开始和结束XPath节点指针,以及指向这些开始和结束节点内部的字符索引。我使用Nokogiri来处理DOM,但任何Ruby解决方案都可以。 难度: 我不能node.traverse

    0热度

    1回答

    我想在Java中使用JSOUP在输入字段中废弃在网页中输入的值。输入字段中的值已被服务器添加。 在JavaScript中,我们用它来选择由ID的元素,然后很容易地得到使用.value所示在下面的图片的值。 这是HTML的样子 我想知道如何与JSOUP和Java做到这一点。

    1热度

    2回答

    我想解析一个使用Jsoup的HTML文件。 HTML中有某些文本不在标签下。 <li class="inactive"> <span class="status label">inactive</span> <a href="/officers/144662696" class="officer inactive" title="more info on MILLTOWN CO

    0热度

    1回答

    我使用lxml 这是一个职位 <article id="post-4855" class="post-4855 post type-post status-publish format-standard hentry category-uncategorized"> <header class="entry-header"> <h1 class="entry-title"><a h

    -1热度

    1回答

    我需要从whoscored.com数据,但是当我输入验证码 import requests from bs4 import BeautifulSoup as soup url = "https://www.whoscored.com/Statistics" page_html = requests.get(url) page_soup = soup(page_html.content, '

    0热度

    2回答

    我正在尝试更新morningstar的网站的基金规模。我以前的IE自动化尝试没有成功,所以我切换到XML httpRequest(工作速度也快得多)。现在,我无法从我从网站获得的文档中打印出正确的线条。我希望代码在第一个“td” - 标签被称为“基金规模(Mil)”的“tr” - 标签内给我第三个“td” - 标签。所以代码循环遍历所有“td”标签的标题,并且如果发现"{line heading}

    0热度

    2回答

    我需要解析HTML代码转换成字符串,因为我以后使用它作为电子邮件的我身上内容: 有没有一种方法来分析这样的html代码: <div class="alert alert-success" role="alert"> <h4 class="alert-heading">Well done!</h4> <p>You have successfully subscribed!</p>