2015-10-05 14 views
0

我想提取物,这个网站“https://www.ncbi.nlm.nih.gov/nucleotide/209750423?report=genbank#”上的数据从浏览器中看到的提取网页内容。当我使用的urllib提取内容,我可以提取数据的,是我获得通过在浏览器中单击鼠标右键后选择“查看页面源代码”,但我要的是实际序列“atggctgaga tgaaaaacct gaaaattgag gtggtgcgct ataacccgga ... “。要提取其可见通过右键单击浏览器,选择‘检查元素’而不是通过‘查看页面源代码’如何为使用python

,我正在使用的代码是

f = open('out.html', 'w') 
response = urllib.urlopen("https://www.ncbi.nlm.nih.gov/nucleotide/209750423?report=genbank") 
f.write(response.read()) 
f.close() 

回答

0

数据被加载JS让你可以得到以下数据:

import requests 
from pyquery import PyQuery 

r = requests.get("https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?val=209750423&db=nuccore&dopt=genbank&extrafeat=976&fmt_mask=0&retmode=html&withmarkup=on&log$=seqview&maxplex=3&maxdownloadsize=1000000") 
pq = PyQuery(r.content) 
div = pq(".ff_line") 

data = [] 
for d in div: 
    data.append(d.text) 

print data