screen-scraping

    3热度

    2回答

    我刚开始与网络中的R刮,我把这个代码: mps <- read_html("http://tunisie-annonce.com/AnnoncesImmobilier.asp") mps %>% html_nodes("tr") %>% html_text() 为了获得所需的内容,我把一个文本文件中。我的问题是我想消除这些红点,但我不能。你可以帮我吗? 我认为这些观点正

    0热度

    1回答

    从不同URL获取数据并在我的网站上显示数据的正确方法是什么? 我使用hquery.php来抓取数据,它工作得很好。 但我想知道是否有比这样做更优化的方式: <?php include_once 'hquery.php'; $doc = hQuery::fromUrl('http://example.com/Product.aspx?PID=125'); $price1

    0热度

    2回答

    我想创建一个Android应用程序,我可以从特定网站上抓取数据。该网站上的信息可能会改变(文本数据)。另外,我不知道HTML结构是否会随着时间而改变。我的问题是: 有没有人推荐特定的工具或框架刮 (免费)? 如何知道何时信息(文本数据)在 网站上发生变化,以便我可以更新我的应用程序? 如何处理网站HTML结构的变化? 这是我的第一次抓取经验,任何答案可以帮助我很多。 谢谢

    0热度

    2回答

    我有一个XML文件,名为feed.xml,我正在使用JAVA上的DOM包来取消数据。 我能够成功地取消数据,现在我需要能够创建IF语句,这取决于我从XML获得的数据。 我的问题是,即使强硬我分配一个字符串变量的属性数据,当我使用IF进行比较时,条件返回FALSE,当它应该是正确的。 这是我的一些XML的 <inventory> <item UnitID="1234" Record="0"

    0热度

    1回答

    我正在尝试使用HTML Agility pack进行维基百科的简单屏幕刮擦。我复制了适用于我的浏览器的链接的格式,https://en.wikipedia.org/wiki/Nanticoke%2c_Pennsylvania < - 在浏览器中工作 但是,当使用此代码时,我从WebClient类中收到非法路径字符异常。 原文地址:https://en.wikipedia.org/wiki/Nant

    0热度

    2回答

    我需要提取Bing搜索的搜索结果中的链接(url)。 page_links应该在页面底部的Bing搜索中保存其他页面的URL。 news_link_list应该容纳所有我想跟踪新闻网站报道的网址(由legal_domains决定) 的yield Request(url, callback)通过所有page_links应该循环并获得response然后进行操作,以更新news_linked_list

    -2热度

    1回答

    我有产品名称列表,我想在以下给定的URL中搜索产品名称,我只需要获取价格。 例如我想搜索“TOMMEE TIPPEE一次性乳垫 - 1×50包” 这个URL http://www.boots.ie/baby-child/babyfeeding/breastfeeding-pumps 如果我得到了全成匹配,那么我怎样才能得到的价格即€8.49 通过刮。 这是演示URL的一个同样地,我有URL列表 请

    0热度

    2回答

    我的代码生成了我想要移除的额外表格。我想删除除此之外的所有其他表格。 我的代码 import csv from bs4 import BeautifulSoup import requests import pandas as pd import telnetlib as tn import os #import sys cwd = os.getcwd() print (os.ge

    0热度

    2回答

    我想玩弄Python来学习,所以我要带一个小项目,但它的一部分,需要我来搜索该名称列表:           https://bughunter.withgoogle.com/characterlist/1 (头号要通过每一个搜索的名称时递增) 所以我将HTML刮它,我是新来的蟒蛇,并希望如果有人可以给我的例子如何使这项工作。

    2热度

    1回答

    我创建了一个python scrapy项目来提取一些谷歌航班的价格。 我配置中间件使用PhantomJS而不是普通的浏览器。 class JSMiddleware(object): def process_request(self, request, spider): driver = webdriver.PhantomJS() try: drive