我不知道是否有已可用其做类似的东西scrapely库例如,基于正则表达式
https://github.com/scrapy/scrapely
它所做的是你举一个例子URL,然后你给的资料你希望从HTML中提取..
url1 = 'http://pypi.python.org/pypi/w3lib/1.1'
data = {'name': 'w3lib 1.1', 'author': 'Scrapy project', 'description': 'Library of web-related functions'}
,然后你开始这个规则通过简单:
s.train(url1, data)
现在,我可以从不同的URL中提取相同的数据...
但有其不相同,但对于原始文本,任何图书馆......
例如:
raw_text = "|foo|bar,name = how cool"
然后我想从中提取“酒吧”。
我知道,我可以写一个简单的正则表达式规则,并获取与此做..但是否有任何可用的库,它解决了这个作为一个基于实例的学习问题..
即,而不是指定一个正则表达式规则,然后通过它传递数据..
而是我指定一个实例,我想提取什么,它会自动生成规则?
希望我有所帮助。
相关:http://txt2re.com/ – jfs
一些理论:论学习正则语言(http://cstheory.blogoverflow.com/2011/08/on-learning-regular-languages/) 。注意:在实践中,它可能更简单。 – jfs