我一直在研究一个正则表达式来分离一堆我需要解析到数据库中的文本文件。我的文件的格式如下:使用多个捕获组的正则表达式
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
Fusce lacinia sollicitudin lectus id eleifend. Phasellus.
massa sapien, scelerisque in tincidunt et, porttitor eget ante.
In iaculis justo vel quam rhoncus volutpat. Curabitur eros est,
ultrices in elementum eget, venenatis eget mauris. Sed sollicitudin,
nibh sed varius aliquet, neque odio porttitor risus, at sollicitudin
lectus neque sit amet diam.
Aliquam condimentum sapien eu
tellus condimentum suscipit.
Pellentesque in accumsan nunc.
我试图想出以下的捕捉组:
Lorem ipsum dolor
sit amet, consectetur adipiscing elit.
Fusce lacinia sollicitudin lectus id eleifend. Phasellus.
massa sapien, scelerisque in tincidunt et, porttitor eget ante.
In iaculis justo vel quam rhoncus volutpat. Curabitur eros est, ultrices in elementum eget, venenatis eget mauris. Sed sollicitudin, nibh sed varius aliquet, neque odio porttitor risus, at sollicitudin
备注: 多行段后的所有内容都可以忽略。所有的组可以包括字母,数字,空格和标点符号。我将使用PHP对文本进行一些额外的后处理。
我最后一次尝试拍摄第一两个部分,这是比我的其他尝试接近,但仍然没有工作打算是:
^((?:[a-zA-Z0-9!-~](?: (?!))?)+?)(?: {2,})((?:[a-zA-Z0-9!-~](?: (?!))?)+?)
我认为这将在文件的开头开始,捕捉所有内容,直到它遇到多个空格,然后抓住该行的其余部分。
你在用什么语言? – 2011-05-08 01:22:52
我使用PHP来完成一切。 – Tim 2011-05-08 01:34:27
只为了解。在询问正则表达式问题时这很有用。 – 2011-05-08 01:35:46