screen-scraping

3热度

2回答

我刚开始与网络中的R刮，我把这个代码： mps <- read_html("http://tunisie-annonce.com/AnnoncesImmobilier.asp") mps %>% html_nodes("tr") %>% html_text() 为了获得所需的内容，我把一个文本文件中。我的问题是我想消除这些红点，但我不能。你可以帮我吗？我认为这些观点正

0热度

1回答

使用PHP从不同页面获取价格数据

从不同URL获取数据并在我的网站上显示数据的正确方法是什么？我使用hquery.php来抓取数据，它工作得很好。但我想知道是否有比这样做更优化的方式： <?php include_once 'hquery.php'; $doc = hQuery::fromUrl('http://example.com/Product.aspx?PID=125'); $price1

0热度

2回答

从网站抓取数据可能会改变

我想创建一个Android应用程序，我可以从特定网站上抓取数据。该网站上的信息可能会改变（文本数据）。另外，我不知道HTML结构是否会随着时间而改变。我的问题是：有没有人推荐特定的工具或框架刮（免费）？如何知道何时信息（文本数据）在网站上发生变化，以便我可以更新我的应用程序？如何处理网站HTML结构的变化？这是我的第一次抓取经验，任何答案可以帮助我很多。谢谢

0热度

2回答

使用Java在XML DOM上使用getElementsByTagName（）值的IF语句

我有一个XML文件，名为feed.xml，我正在使用JAVA上的DOM包来取消数据。我能够成功地取消数据，现在我需要能够创建IF语句，这取决于我从XML获得的数据。我的问题是，即使强硬我分配一个字符串变量的属性数据，当我使用IF进行比较时，条件返回FALSE，当它应该是正确的。这是我的一些XML的 <inventory> <item UnitID="1234" Record="0"

0热度

1回答

WebClient维基百科非法路径字符，即使在URL编码后

我正在尝试使用HTML Agility pack进行维基百科的简单屏幕刮擦。我复制了适用于我的浏览器的链接的格式，https://en.wikipedia.org/wiki/Nanticoke%2c_Pennsylvania < - 在浏览器中工作但是，当使用此代码时，我从WebClient类中收到非法路径字符异常。原文地址：https://en.wikipedia.org/wiki/Nant

0热度

2回答

如何从Bing中提取所有链接？（如何声明Scrapy类中的变量？）

我需要提取Bing搜索的搜索结果中的链接（url）。 page_links应该在页面底部的Bing搜索中保存其他页面的URL。 news_link_list应该容纳所有我想跟踪新闻网站报道的网址（由legal_domains决定）的yield Request(url, callback)通过所有page_links应该循环并获得response然后进行操作，以更新news_linked_list

-2热度

1回答

正则表达式搜索产品名称并获得价格

我有产品名称列表，我想在以下给定的URL中搜索产品名称，我只需要获取价格。例如我想搜索“TOMMEE TIPPEE一次性乳垫 - 1×50包” 这个URL http://www.boots.ie/baby-child/babyfeeding/breastfeeding-pumps 如果我得到了全成匹配，那么我怎样才能得到的价格即€8.49 通过刮。这是演示URL的一个同样地，我有URL列表请

0热度

2回答

从python网页抓取结果中删除多余的表格

我的代码生成了我想要移除的额外表格。我想删除除此之外的所有其他表格。我的代码 import csv from bs4 import BeautifulSoup import requests import pandas as pd import telnetlib as tn import os #import sys cwd = os.getcwd() print (os.ge

0热度

2回答

通过HTML页面搜索某些文本？

我想玩弄Python来学习，所以我要带一个小项目，但它的一部分，需要我来搜索该名称列表： https://bughunter.withgoogle.com/characterlist/1 （头号要通过每一个搜索的名称时递增）所以我将HTML刮它，我是新来的蟒蛇，并希望如果有人可以给我的例子如何使这项工作。

2热度

1回答

Python的scrapy工作（只有一半的时间）

我创建了一个python scrapy项目来提取一些谷歌航班的价格。我配置中间件使用PhantomJS而不是普通的浏览器。 class JSMiddleware(object): def process_request(self, request, spider): driver = webdriver.PhantomJS() try: drive