python
  • web
  • web-scraping
  • 2017-01-20 78 views 0 likes 
    0

    我试图从股票市场上刮取数据,但是当我打印出数据时我一直没有收到任何信息。我想要苹果的价格。使用Python 2从网站上刮取数据

    import urllib 
    import re 
    
    
    
    htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL&q1=1") 
    
    htmltext = htmlfile.read() 
    
    regex = '<span class="Fw(b) Fz(36px) Mb(-4px)" data-reactid="270">(.+?)</span>' 
    
    pattern = re.compile(regex) 
    
    price = re.findall(pattern,htmltext) 
    
    print price 
    

    回答

    0

    你能详细说明你究竟想从页面上拉出什么东西吗?我可以用下面的代码来拉你的标签(注意:使用Python 3,BeautifulSoup和请求,所有这些我都推荐用于网页抓取;同时为了找出你需要为标题变量,我建议:http://www.whatsmyua.com/

    import requests 
    from bs4 import BeautifulSoup 
    
    url = 'http://finance.yahoo.com/q?s=AAPL&q1=1' 
    
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; InfoPath.3; .NET4.0C; .NET4.0E; rv:11.0) like Gecko'} 
    
    r = requests.get(url, headers=headers) 
    
    soup = BeautifulSoup(r.text, "html.parser") 
    
    for item in soup.find_all('span', {"class":"Fw(500) Pstart(10px) Fz(24px) C($dataRed)"}): 
        print(item) 
    
    +0

    我希望得到我每次运行它返回一个空列表 –

    +0

    我建议你看看这些答案这里的代码时,苹果的价格:http://stackoverflow.com/questions/20045955 /正则表达式图案中的Python换解析HTML的标题标签 ķ耶的回答解释了正则表达式如何捕捉标签 在你的情况,你会希望<span>标签,它应该给你一个所有span标签的列表,可以进一步搜索以找到你想要的信息。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/6705190/">Jcloud</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相关问题</div> <ul class="relative_list"> <li> 1. <a href="http://www.uwenku.com/question/p-yxylujng-bnb.html" target="_blank" title="(Python)使用'style:hidden'标签从网站上刮取数据?"> (Python)使用'style:hidden'标签从网站上刮取数据? </a> </li> <li> 2. <a href="http://www.uwenku.com/question/p-uaxyvppa-hx.html" target="_blank" title="使用Simple_HTML_Dom.php从网站刮取数据"> 使用Simple_HTML_Dom.php从网站刮取数据 </a> </li> <li> 3. <a href="http://www.uwenku.com/question/p-eqylvsav-ua.html" target="_blank" title="使用PHP从网站刮取数据"> 使用PHP从网站刮取数据 </a> </li> <li> 4. <a href="http://www.uwenku.com/question/p-olquboup-hn.html" target="_blank" title="如何使用Python从本网站刮取所有数据"> 如何使用Python从本网站刮取所有数据 </a> </li> <li> 5. <a href="http://www.uwenku.com/question/p-ajyrfqkq-hc.html" target="_blank" title="使用R从aspx网站上刮取"> 使用R从aspx网站上刮取 </a> </li> <li> 6. <a href="http://www.uwenku.com/question/p-oaythtzv-sn.html" target="_blank" title="如何使用Python 2从网站上抓取数据?"> 如何使用Python 2从网站上抓取数据? </a> </li> <li> 7. <a href="http://www.uwenku.com/question/p-ckkubwuh-rd.html" target="_blank" title="从网站刮表数据"> 从网站刮表数据 </a> </li> <li> 8. <a href="http://www.uwenku.com/question/p-fzytedfi-bs.html" target="_blank" title="使用vba从网站上刮取数据"> 使用vba从网站上刮取数据 </a> </li> <li> 9. <a href="http://www.uwenku.com/question/p-zqablndc-d.html" target="_blank" title="使用vba从网站上刮取数据4"> 使用vba从网站上刮取数据4 </a> </li> <li> 10. <a href="http://www.uwenku.com/question/p-mqrczgfw-vm.html" target="_blank" title="从使用javascript的网站上刮取数据"> 从使用javascript的网站上刮取数据 </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://www.uwenku.com/question/p-orqcctpl-bdk.html" target="_blank" title="从网站上刮掉员工数据"> 从网站上刮掉员工数据 </a> </li> <li> 12. <a href="http://www.uwenku.com/question/p-xtcqdfbi-rb.html" target="_blank" title="如何从本网站刮取数据?"> 如何从本网站刮取数据? </a> </li> <li> 13. <a href="http://www.uwenku.com/question/p-mbyrpvsu-bbc.html" target="_blank" title="使用Python的网页刮取数据"> 使用Python的网页刮取数据 </a> </li> <li> 14. <a href="http://www.uwenku.com/question/p-sopbkaee-bgu.html" target="_blank" title="用Python从Facebook上刮取数据"> 用Python从Facebook上刮取数据 </a> </li> <li> 15. <a href="http://www.uwenku.com/question/p-rrsgyftg-nq.html" target="_blank" title="python - 使用BeautifulSoup网站刮ajax网站"> python - 使用BeautifulSoup网站刮ajax网站 </a> </li> <li> 16. <a href="http://www.uwenku.com/question/p-pgzmocqy-px.html" target="_blank" title="从网页上刮取网页数据"> 从网页上刮取网页数据 </a> </li> <li> 17. <a href="http://www.uwenku.com/question/p-dzartxbz-rw.html" target="_blank" title="使用python从网站提取数据"> 使用python从网站提取数据 </a> </li> <li> 18. <a href="http://www.uwenku.com/question/p-kiyhgfnf-vq.html" target="_blank" title="使用Python从网站提取数据"> 使用Python从网站提取数据 </a> </li> <li> 19. <a href="http://www.uwenku.com/question/p-ksdmgrcm-bnv.html" target="_blank" title="如何从网站上刮取图片?"> 如何从网站上刮取图片? </a> </li> <li> 20. <a href="http://www.uwenku.com/question/p-yhxdgcwg-gp.html" target="_blank" title="Python/BeautifulSoup:从网页上刮去数据"> Python/BeautifulSoup:从网页上刮去数据 </a> </li> <li> 21. <a href="http://www.uwenku.com/question/p-cjjmuxve-ka.html" target="_blank" title="使用python刮取数据"> 使用python刮取数据 </a> </li> <li> 22. <a href="http://www.uwenku.com/question/p-sxhrsduo-wt.html" target="_blank" title="Python从网站刮表?"> Python从网站刮表? </a> </li> <li> 23. <a href="http://www.uwenku.com/question/p-xmebdvos-bbb.html" target="_blank" title="如何从网站上刮取徽标?"> 如何从网站上刮取徽标? </a> </li> <li> 24. <a href="http://www.uwenku.com/question/p-gnttfjxd-en.html" target="_blank" title="使用vba从多个网站刮取数据"> 使用vba从多个网站刮取数据 </a> </li> <li> 25. <a href="http://www.uwenku.com/question/p-qbmdxncn-bet.html" target="_blank" title="iOS:从需要验证的网站上刮取数据?"> iOS:从需要验证的网站上刮取数据? </a> </li> <li> 26. <a href="http://www.uwenku.com/question/p-dqrxyxfe-ng.html" target="_blank" title="如何从许多网站上刮取联系人数据?"> 如何从许多网站上刮取联系人数据? </a> </li> <li> 27. <a href="http://www.uwenku.com/question/p-axziqkxf-kp.html" target="_blank" title="从最新技术的网站上刮取数据的提示"> 从最新技术的网站上刮取数据的提示 </a> </li> <li> 28. <a href="http://www.uwenku.com/question/p-kmalrujq-ug.html" target="_blank" title="如何从网站上刮取产品数据?"> 如何从网站上刮取产品数据? </a> </li> <li> 29. <a href="http://www.uwenku.com/question/p-xdowxcgr-ua.html" target="_blank" title="如何从使用Python的网站刮取文本"> 如何从使用Python的网站刮取文本 </a> </li> <li> 30. <a href="http://www.uwenku.com/question/p-uzqmmurz-md.html" target="_blank" title="使用python从网站上刮掉每个产品的href"> 使用python从网站上刮掉每个产品的href </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048176"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 每日一句 </div> <div class="panel-body m-b-sm m-t-sm clearfix"> 每一个你不满意的现在,都有一个你没有努力的曾经。 </div> </div> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新问题 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://www.uwenku.com/question/p-fkkjwjzq-qt.html" target="_blank" title="多层次按菜单角4"> 多层次按菜单角4 </a> </li> <li class="side_article_list_item"> 2. <a href="http://www.uwenku.com/question/p-csctcjgp-rc.html" target="_blank" title="Yodlee providerAccounts REST端点凭证"> Yodlee providerAccounts REST端点凭证 </a> </li> <li class="side_article_list_item"> 3. <a href="http://www.uwenku.com/question/p-qgmmappj-ro.html" target="_blank" title="体面性能Gem5系统要求"> 体面性能Gem5系统要求 </a> </li> <li class="side_article_list_item"> 4. <a href="http://www.uwenku.com/question/p-dfaghluo-rx.html" target="_blank" title="熊猫:从行的特定列中选择值"> 熊猫:从行的特定列中选择值 </a> </li> <li class="side_article_list_item"> 5. <a href="http://www.uwenku.com/question/p-zeeftwxs-pp.html" target="_blank" title="Bypass Itunes Connect Testflight应用程序-β审查"> Bypass Itunes Connect Testflight应用程序-β审查 </a> </li> <li class="side_article_list_item"> 6. <a href="http://www.uwenku.com/question/p-blslbebm-ou.html" target="_blank" title="Android Studio错误安装Java"> Android Studio错误安装Java </a> </li> <li class="side_article_list_item"> 7. <a href="http://www.uwenku.com/question/p-nvlblvfn-pd.html" target="_blank" title="根vs自举组件"> 根vs自举组件 </a> </li> <li class="side_article_list_item"> 8. <a href="http://www.uwenku.com/question/p-krlhbaih-nz.html" target="_blank" title="滚动到div的ID,堆叠后“停止” DIV ID隐藏(不smoth滚动)"> 滚动到div的ID,堆叠后“停止” DIV ID隐藏(不smoth滚动) </a> </li> <li class="side_article_list_item"> 9. <a href="http://www.uwenku.com/question/p-xhraizgw-ok.html" target="_blank" title="如何模拟来电?"> 如何模拟来电? </a> </li> <li class="side_article_list_item"> 10. <a href="http://www.uwenku.com/question/p-yngkhxee-ne.html" target="_blank" title="预期一个字符串,但是BEGIN_ARRAY- Gson"> 预期一个字符串,但是BEGIN_ARRAY- Gson </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相关问题</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://www.uwenku.com/question/p-yxylujng-bnb.html" target="_blank" title="(Python)使用'style:hidden'标签从网站上刮取数据?"> (Python)使用'style:hidden'标签从网站上刮取数据? </a> </li> <li class="side_article_list_item"> 2. <a href="http://www.uwenku.com/question/p-uaxyvppa-hx.html" target="_blank" title="使用Simple_HTML_Dom.php从网站刮取数据"> 使用Simple_HTML_Dom.php从网站刮取数据 </a> </li> <li class="side_article_list_item"> 3. <a href="http://www.uwenku.com/question/p-eqylvsav-ua.html" target="_blank" title="使用PHP从网站刮取数据"> 使用PHP从网站刮取数据 </a> </li> <li class="side_article_list_item"> 4. <a href="http://www.uwenku.com/question/p-olquboup-hn.html" target="_blank" title="如何使用Python从本网站刮取所有数据"> 如何使用Python从本网站刮取所有数据 </a> </li> <li class="side_article_list_item"> 5. <a href="http://www.uwenku.com/question/p-ajyrfqkq-hc.html" target="_blank" title="使用R从aspx网站上刮取"> 使用R从aspx网站上刮取 </a> </li> <li class="side_article_list_item"> 6. <a href="http://www.uwenku.com/question/p-oaythtzv-sn.html" target="_blank" title="如何使用Python 2从网站上抓取数据?"> 如何使用Python 2从网站上抓取数据? </a> </li> <li class="side_article_list_item"> 7. <a href="http://www.uwenku.com/question/p-ckkubwuh-rd.html" target="_blank" title="从网站刮表数据"> 从网站刮表数据 </a> </li> <li class="side_article_list_item"> 8. <a href="http://www.uwenku.com/question/p-fzytedfi-bs.html" target="_blank" title="使用vba从网站上刮取数据"> 使用vba从网站上刮取数据 </a> </li> <li class="side_article_list_item"> 9. <a href="http://www.uwenku.com/question/p-zqablndc-d.html" target="_blank" title="使用vba从网站上刮取数据4"> 使用vba从网站上刮取数据4 </a> </li> <li class="side_article_list_item"> 10. <a href="http://www.uwenku.com/question/p-mqrczgfw-vm.html" target="_blank" title="从使用javascript的网站上刮取数据"> 从使用javascript的网站上刮取数据 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://www.uwenku.com/contact">联系我们</a></li> <li>© 2020 UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>