我的python级别是新手。我从未写过网络抓取工具或抓取工具。我已经写了一个python代码连接到api并提取我想要的数据。但是对于一些提取的数据,我想获得作者的性别。我发现这个网站http://bookblog.net/gender/genie.php
但缺点是没有可用的api。我想知道如何编写一个Python提交数据到页面中的表单并提取返回数据。如果我能得到一些指导,这将是一个很大的帮助。通过web表单提交数据并提取结果
这是表单DOM:
<form action="analysis.php" method="POST">
<textarea cols="75" rows="13" name="text"></textarea>
<div class="copyright">(NOTE: The genie works best on texts of more than 500 words.)</div>
<p>
<b>Genre:</b>
<input type="radio" value="fiction" name="genre">
fiction
<input type="radio" value="nonfiction" name="genre">
nonfiction
<input type="radio" value="blog" name="genre">
blog entry
</p>
<p>
</form>
结果页面的DOM:
<p>
<b>The Gender Genie thinks the author of this passage is:</b>
male!
</p>
我试图做easy_install lxml.html,但得到以下错误easy_install lxml.html 正在搜索lxml.html 阅读http://pypi.python.org/simple/lxml .html/ 找不到'lxml.html'的索引页(可能是拼写错误?) 所有软件包的扫描索引(这可能需要一段时间) 正在读取http://pypi.python.org/simple/ 否为lxml.html 找到的本地程序包或下载链接错误:找不到Requirement.parse('lxml.html')的合适分布 –
在模块导入中,如果两个名称之间具有“。”,则意味着第二个名字是以前的名字。你想要安装的模块是lxml。 – Acorn
谢谢我在发表评论后意识到了这一点。谢谢agianl –