如何为使用python

我想提取物，这个网站“https://www.ncbi.nlm.nih.gov/nucleotide/209750423?report=genbank#”上的数据从浏览器中看到的提取网页内容。当我使用的urllib提取内容，我可以提取数据的，是我获得通过在浏览器中单击鼠标右键后选择“查看页面源代码”，但我要的是实际序列“atggctgaga tgaaaaacct gaaaattgag gtggtgcgct ataacccgga ... “。要提取其可见通过右键单击浏览器，选择‘检查元素’而不是通过‘查看页面源代码’如何为使用python

，我正在使用的代码是

f = open('out.html', 'w') 
response = urllib.urlopen("https://www.ncbi.nlm.nih.gov/nucleotide/209750423?report=genbank") 
f.write(response.read()) 
f.close()

来源

2015-10-05 bugcracker

你应该花有时间看看你想要抓取的页面。这只是一个加载一些JS应用程序的页面。应用程序然后从另一个地方加载实际数据。

https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?val=209750423&db=nuccore&dopt=genbank&retmode=text

顺便说一句，一定刮在线内容之前检查的版权问题。

来源

2015-10-05 07:07:19 spectras

数据被加载JS让你可以得到以下数据：

import requests 
from pyquery import PyQuery 

r = requests.get("https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?val=209750423&db=nuccore&dopt=genbank&extrafeat=976&fmt_mask=0&retmode=html&withmarkup=on&log$=seqview&maxplex=3&maxdownloadsize=1000000") 
pq = PyQuery(r.content) 
div = pq(".ff_line") 

data = [] 
for d in div: 
    data.append(d.text) 

print data

来源

2015-10-05 07:46:13

如何为使用python

回答

相关问题