我是一个Python编程的初学者,我正在尝试学习如何抓取网页。我想要做的是从这里抓取数据web pagePython/BeautifulSoup:从网页上刮去数据
我想从上面的页面上刮ISSUE DATE
(如果你打开网页,你可以看到ISSUE DATE
)。我正面临着一些问题。
这是我为此编写的代码。
import BeautifulSoup
import urllib2
url = "http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=0000149.PN.&OS=PN/0000149&RS=PN/0000149"
data = urllib2.urlopen(url).read()
soup = BeautifulSoup.BeautifulSoup(data)
value1 = soup.findAll('TABLE')
for value in value1:
date1 = value.find('B').text
print date1
请说明问题。 – cha0site 2012-04-09 18:25:29
标记的大小写应该没有关系,但文档中的小写标记名不是大写http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#find%28name,%20attrs,%20recursive,% 20text,%20 ** kwargs%29 – dm03514 2012-04-09 18:31:21
ya我需要从网页中剔除“发布日期” – user1301449 2012-04-09 19:23:55