使用scrapy更改HTML元素的值

我想从此网站上抓取数据：Website link。
我想从特定日期下载所有PDF文件。
虽然我已经设法从第一页获取文件并正确下载它们，但我无法更改日期，因此我可以返回到以前的日期并获取旧的PDF。
我试过这行：在scrapy外壳中的scrapy.FormRequest.from_response(response,formxpath='//table//td//input[@type="text"]', formdata={'value': "20.05.2017"}, clickdata={'type':'submit'}, method='POST')，但view(response)总是显示当前日期。

我不确定这是否正确无论如何，我是scrapy的新手，我试图弄清楚。我认为该方法是正确的，因为当我更改日期链接不会更改时，所以它应该是POST而不是GET。

关于如何让这个工作的任何想法？
我认为FormRequest()是最好的选择，但我没有在网上看到任何其他的例子，scrapy网站上的文档对我没有太大帮助，所以我试图研究那些涉及登录凭证的例子，它们都使用了FormRequest.from_response()
谢谢你的时间。使用scrapy更改HTML元素的值

PS：我已经包含了与日期更改有关的HTML代码段的屏幕截图。 Screenshot

来源

2017-05-28 Stavros G

输入字段名称是“日期”，而不是“值”：

<form id="dailyFekForm" name="dailyFekForm" action="/idocs-nph/search/dailyFekForm.html" method="post"> 
     <br> 
     <div> 

     </div> 
     <div class="non-printable" style="padding-left:20px;"> 
      <table> 
       <tr> 
        <td style="font-size:100%; color:#3399FF;" align="left" > 
         <table> 
          <tr> 
           <td valign="center" style="font-size:100%; color:#3399FF;" ><b>Ημερομηνία Κυκλοφορίας</b></td> 
           <td> 
            <img title="Επιλέξτε ημερομηνία για ημερήσια κυκλοφορία" border="0" src="/idocs-nph/images/tooltip.gif" > 
           </td> 
          </tr> 
         </table> 
        </td> 
        <td><input id="date" name="date" type="text" value="29.05.2017"/></td> 
        <td><img src="/idocs-nph/images/admin/calendar.gif" id="triggerDate"/></td> 
        <td><input class="save" type="submit" value="Αναζήτηση" name="search" id="search"/></td> 
       </tr> 
      </table>

你也可以检查你的浏览器将使用其开发工具：http://imgur.com/a/ztDtF（选中“表格数据”在底部）

因此，你可以使用：

scrapy.FormRequest.from_response(response,formdata={'date': "19.05.2017"})

样品使用scrapy外壳，呈现出不同的会话表行：

$ scrapy shell http://www.et.gr/idocs-nph/search/dailyFekForm.html 
>>> from pprint import pprint 
>>> pprint(response.css('table#result_table tr:not(.prop) td b').xpath('normalize-space()').getall()) 
['ΦΕΚ A 77 - 26.05.2017', 
'ΦΕΚ B 1836 - 25.05.2017', 
'ΦΕΚ B 1837 - 25.05.2017', 
(...) 
'ΦΕΚ Α.Α.Π. 112 - 25.05.2017', 
'ΦΕΚ Α.Α.Π. 113 - 26.05.2017', 
'ΦΕΚ Α.Α.Π. 114 - 26.05.2017', 
'ΦΕΚ Α.Α.Π. 115 - 26.05.2017'] 
>>> fetch(scrapy.FormRequest.from_response(response,formdata={'date': "19.05.2017"})) 
2017-05-29 14:42:50 [scrapy.core.engine] DEBUG: Crawled (200) <POST http://www.et.gr/idocs-nph/search/dailyFekForm.html> (referer: None) ['partial'] 
>>> pprint(response.css('table#result_table tr:not(.prop) td b').xpath('normalize-space()').getall()) 
['ΦΕΚ A 72 - 19.05.2017', 
'ΦΕΚ A 73 - 19.05.2017', 
'ΦΕΚ A 74 - 19.05.2017', 
(...) 
'ΦΕΚ Υ.Ο.Δ.Δ. 234 - 18.05.2017', 
'ΦΕΚ Α.Α.Π. 105 - 16.05.2017', 
'ΦΕΚ Α.Α.Π. 108 - 16.05.2017'] 
>>> fetch(scrapy.FormRequest.from_response(response,formdata={'date': "16.05.2017"})) 
2017-05-29 14:45:53 [scrapy.core.engine] DEBUG: Crawled (200) <POST http://www.et.gr/idocs-nph/search/dailyFekForm.html> (referer: None) ['partial'] 
>>> pprint(response.css('table#result_table tr:not(.prop) td b').xpath('normalize-space()').getall()) 
['ΦΕΚ A 69 - 16.05.2017', 
'ΦΕΚ B 1638 - 15.05.2017', 
'ΦΕΚ B 1639 - 15.05.2017', 
(...) 
'ΦΕΚ Υ.Ο.Δ.Δ. 228 - 16.05.2017', 
'ΦΕΚ Υ.Ο.Δ.Δ. 229 - 16.05.2017', 
'ΦΕΚ Α.Α.Π. 102 - 15.05.2017'] 
>>>

来源

2017-05-29 11:03:20

非常感谢您的时间。这对你有用吗？我已经在Scrapy shell中试过了，当我使用视图（响应）时，它会返回相同的日期。我不应该看到改变的吗？ –

它适用于我。看到我更新的答案。 –

没有使用抓取..我觉得自己像个白痴，现在我一直在寻找这个错误3天。非常感谢你，真的很感激。 –

使用scrapy更改HTML元素的值

回答

相关问题