我有了套文本的文本文件,我需要提取看起来像如下:如何提取两个不同比赛之间的文字?
ITEM A blah blah blah ITEM B bloo bloo bloo ITEM A blee blee blee ITEM B
这里是工作的代码我到目前为止:
finda = r'(Item\sA)'
findb = r'(Item\sB)'
match_a = re.finditer(finda, usefile, 2) # the "2" is a flag to say ignore case
match_b = re.finditer(findb, usefile, 2)
我知道,我可以使用span,start和end等命令来查找匹配的文本位置。但我需要做很多次所以我需要的是:
- 开始写在项目A,并停止在B项议题
- 写如果第一次迭代少于50个字符,然后丢弃和移动下一个
- 一旦你找到了一组与项目A开始,以项目B结束,大于50个字符写入到一个文件
由于一吨提前!我一直在旋转我的轮子。
您应该使用先行断言为最终定界符允许开始和结束分隔符的重叠。 – Gumbo 2010-06-22 17:46:18
谢谢!一旦我明白了这一切意味着什么,我才能使其工作。 – dandyjuan 2010-06-22 18:25:16